ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
我在langchain里retriever是按256 tokens/chunk,overlap=128 tokens,每次查询50-100个chunks才稍微满意一点点
很好奇为啥没提供那种根据文档结构分块的方式。 比如先将 PDF 转换为带一级标题、二级标题、三级标题的 Markdown,父分块按二级标题,子分块按三级标题,这样就不会出现连贯性的内容被阶段的情况了,当然这也很考验 PDF 的解析技术
I have the same question too.
没错,是这样的。按自己尝试的结果来看,效果就是这样。所以rag是需要更好的方案的
分塊切太大定位不到是embedding模型的問題,超過1000 token準確度就會下降
很好的比較,謝謝。
通过子文档找到对应的父文档,确实减少了上下文断层的问题,但是对某些关联比较长的内容父文档之间也会有断层的问题
应该还是文档解析出了问题
我刚提这个需求, dify 就完成了。 dify 要是能支持多智能体, 就完美了。
不知道 NotebookLM 底層的設定, 但是簡單的操作和不錯的效果, 我覺得還是 RAG 最好用的一個.
NotebookLM目前不支持ocr,是个硬伤,有相当多的实际文档是图片形式pdf
@@wuweizhi3148 支持了吧
和加大chunk size 和 overlap 比效果会好多少哪
这个很难量化
我在langchain里retriever是按256 tokens/chunk,overlap=128 tokens,每次查询50-100个chunks才稍微满意一点点
很好奇为啥没提供那种根据文档结构分块的方式。 比如先将 PDF 转换为带一级标题、二级标题、三级标题的 Markdown,父分块按二级标题,子分块按三级标题,这样就不会出现连贯性的内容被阶段的情况了,当然这也很考验 PDF 的解析技术
I have the same question too.
I have the same question too.
没错,是这样的。按自己尝试的结果来看,效果就是这样。所以rag是需要更好的方案的
分塊切太大定位不到是embedding模型的問題,超過1000 token準確度就會下降
很好的比較,謝謝。
通过子文档找到对应的父文档,确实减少了上下文断层的问题,但是对某些关联比较长的内容父文档之间也会有断层的问题
应该还是文档解析出了问题
我刚提这个需求, dify 就完成了。 dify 要是能支持多智能体, 就完美了。
不知道 NotebookLM 底層的設定, 但是簡單的操作和不錯的效果, 我覺得還是 RAG 最好用的一個.
NotebookLM目前不支持ocr,是个硬伤,有相当多的实际文档是图片形式pdf
@@wuweizhi3148 支持了吧
和加大chunk size 和 overlap 比效果会好多少哪
这个很难量化