【人工智能】爆肝万字介绍向量数据库和Pinecone | 向量搜索的演化过程 | LLM是人类的大脑，向量数据库就是海马体 | Pinecone的发展历程 | Pinecone直接和潜在竞争对手有哪些

Best Partners TV

มุมมอง 24 053

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 1 พ.ค. 2023
00:00:03 引子
00:01:43 给大模型增加记忆的三种方式
00:02:36 向量数据库的应用场景
00:06:58 向量embedding和搜索的演化历程
00:17:05 Pinecone的发展历程
00:27:11 Pinecone的竞争对手
00:34:04 两个问题
每天当我们睁开双眼，记录光线强度的信号传到视觉皮层，那里的神经元激活后形成对眼前事物的神经表征，这就是人脑真正理解和学习的对象。AI 模型的学习原理也并无二致，它实际识别和理解的不是一个个具体的文字符号，而是神经网络对各类数据的向量化表示，表示的结果便是向量 embedding 。在 AI 重塑软件的时代，向量作为大模型理解世界的数据形式，也可能促成新的重要基建：向量数据库。如果说 LLM 是容易失忆的大脑，向量数据库就是海马体，像 AutoGPT 这样需要记忆系统的多轮项目正在涌现，向量数据库的用量也陡然增长。其中增长最快的就是 Pinecone，他们用开箱即用的产品体验占据了 AI 应用开发者的心智。随着多模态大模型的出现，向量 embedding 会像 JSON 数据一样覆盖多个使用场景，需求量也将大幅增长。
#向量数据库 #vectordatabase #pinecone #machinelearning
วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 61

@bestpartners ปีที่แล้ว ⁺⁷
Pinecone: www.pinecone.io
Weaviate: weaviate.io
Chroma: www.trychroma.com/
Zilliz: zilliz.com
Vespa: vespa.ai
@ChenXiajie 7 หลายเดือนก่อน ⁺⁵
大飞的视频一直是这么详尽正面和通俗易懂，值得敬佩，请继续加油，感谢
@liyazhu4985 ปีที่แล้ว ⁺⁵
干货十足！盘点全面！！！太感谢了，经常来这里学习！
@bestpartners ปีที่แล้ว ⁺¹
感谢观看🙏
@user-ei3le8xf8j ปีที่แล้ว ⁺¹⁴
的確是對向量資料的專業解說，之前導入向量應用的公司僅限於大公司，未來向量資料庫和存儲需求在3年內一定會巨量增加👍
想投資的可以關注了
@bestpartners ปีที่แล้ว ⁺³
感谢观看，投资好机会👍
@maxxu8818 11 หลายเดือนก่อน ⁺¹
请问有什么stock投资机会？知道的公司都是startup， pinecone，weaviate, chromadb, milvus...
@bestpartners 11 หลายเดือนก่อน ⁺³
@@maxxu8818 建议还是买苹果谷歌亚马逊这些，向量数据库比较新，创业公司没有上市的
@Lawrencelj 2 หลายเดือนก่อน ⁺¹
azure’s cognitive search and its indexing is vector based
@user-wm1yb3zi9x 8 หลายเดือนก่อน ⁺¹
这个科普太牛了！非常值得学习！
@derek142 9 หลายเดือนก่อน
感谢分享，学习了~
@jingqiwu2865 ปีที่แล้ว ⁺³
讲的内容与最近要做的东西非常相关。存起来需要多次消化吸收。感谢博主。
@bestpartners ปีที่แล้ว ⁺¹
感谢观看，有帮助就好🙏
@sunwoe4014 ปีที่แล้ว ⁺⁶
説得對，向量數據庫只能充當短期記憶，而且和大語言模型的交互是單向的，還是無法讓知識“沉澱”進大語言模型中，因此若想形成長期記憶，最終還是需要額外訓練模型才能做到。
因此還有一個領域叫 Continual Learning/Incremental Learning，可以讓神經網路在維持長期記憶的同時學習新知識，而且是形成長期記憶那種。
希望能多講講有沒有大語言模型和該方向結合的應用和例子。
@bestpartners ปีที่แล้ว ⁺³
感谢观看和建议，有时间做一期相关节目
@maxxu8818 11 หลายเดือนก่อน ⁺⁵
现在不少开发者是从langchain开发AI应用，对于langchain的支持度，各家vectordb厂商也稍有区别。langchain的default是chromadb。
@l501l501l 11 หลายเดือนก่อน ⁺⁵
您好，有注意到一個問題，一般來說英文發音不是什麼問題，但是你把Prompting一直念成Promoting，就會影響語意的理解了。Prompting可能是你想表達的，但Promoting是指"升遷"或是"推廣"。
@bestpartners 11 หลายเดือนก่อน ⁺²
是的，这个的确是读错了，后续已经纠正，感谢指出
@stoneidolon 8 หลายเดือนก่อน
讲得很好
@yth2011 10 หลายเดือนก่อน
非常好
@Yueyelongbob 11 หลายเดือนก่อน ⁺¹
在做图像色块分析和色域缩减时，也是用到了向量对比，个人觉得主要的难点在于如何抉择各个向量值的比重，而且很多时候机器眼中的“间距”与人类所判断的“间距”是有差异的。举个例子，机器测温，和体感测温，感受绝对不同，机器需要理解人类感受温度的方法，按照人类的那一套来运算。
@user-vz2us4cr4d ปีที่แล้ว ⁺¹
很专业全面，看好大厂基于云原生的向量引擎商业化，后续大概率会有更多厂商跟进向量赛道，持续关注是否会出现类似ES体量的产品
@kennet2811 2 หลายเดือนก่อน ⁺¹
00:00 Adding memory to large models enhances their information integration ability
05:30 Vector search is a process of finding the most relevant results by comparing vectors
10:32 Vector search provides an efficient way to store and search unstructured data
15:36 Vector databases play a crucial role in AI applications and multimedia data retrieval.
20:11 Pinecone offers precise and fuzzy search capabilities.
24:23 Pinecone is an easy-to-use Python library with good performance and strong real-time capabilities.
28:43 Pinecone, Chroma, Zilliz, and Vespa are key competitors in the vector database market.
33:02 Pinecone and its competitors are part of the evolving vector database market.
Crafted by Merlin AI.
@shawnkirin410 ปีที่แล้ว ⁺¹
虽说没听懂但还是感谢分享！
@bestpartners ปีที่แล้ว ⁺¹
感谢观看
@skyacaniadev2229 ปีที่แล้ว ⁺⁶
海马体个人感觉是个auto associator, 是记忆形成器（或者垮脑区突触发育启动器）。大脑里对标向量数据库的感觉更可能是与海马体相邻的 entorhinal cortex 内嗅皮质。Grid cell 给我的感觉就是生物体尝试建立向量数据库。
@bestpartners ปีที่แล้ว ⁺³
专业👍
@digitalboyzone ปีที่แล้ว ⁺²
好专业，写一篇文章吧
@OneOfKevin ปีที่แล้ว ⁺¹
雖然還看不懂，但先點讚
@bestpartners ปีที่แล้ว ⁺¹
哈哈，谢谢点赞👍
@user-eh5oe6ge5v 2 หลายเดือนก่อน
几年前做图像内容检索的时候就用向量数据库了，感觉对于中小规模应用，使用比较简单，半小时基本就掌握了
@SmashUncleSmithy ปีที่แล้ว ⁺²
模糊的准确，比准确的错误重要
@dsyy3263 ปีที่แล้ว ⁺³
虽然听不懂，但是还是认真听完了😅
@bestpartners ปีที่แล้ว ⁺²
哈哈，多听就能听懂了
@frank_1972 ปีที่แล้ว ⁺²
🙋tks👍🔔📝↗️
@54870498 ปีที่แล้ว ⁺³
我就想說這麼多youtuber介紹了怎麼安裝autogpt, pinecone沒有一個人介紹怎麼用, 原來是因為有點難;後來直接看文本介紹才發現, 小白想輕鬆就上手使用還要一段時間學習曲線陡陡的, 感謝難得看到的完整介紹
@54870498 ปีที่แล้ว ⁺⁴
很多yotuber根本毛都不知道, 就知道git clone
@bestpartners ปีที่แล้ว ⁺¹
感谢观看，多提建议
@unidentifieduser5550 ปีที่แล้ว ⁺²
解说prompt每次发音都会发成 promote
@bestpartners ปีที่แล้ว ⁺²
是的，非常抱歉，以后注意改正
@zfjvyvj8819 ปีที่แล้ว ⁺¹
大佬牛鸡
@bestpartners ปีที่แล้ว ⁺²
哈哈，牛鸡是什么鬼
@haoyin6886 3 หลายเดือนก่อน
prompt发音纠正一下
@yisun8656 10 หลายเดือนก่อน ⁺¹
另外感觉你说的向量embedding也有错误。听内容和断句，好像你把embedding当成了向量的英文翻译了。
@zac1427 ปีที่แล้ว ⁺¹
我也大多听不懂，但是也听完了
所以以数据安全为首要的公司就不会用第三方向量数据库吧，那但凡私密一点的数据，就很难去付费购买服务。还有想问一下Google 搜索出来的结果算是利用embedding 么
@bestpartners ปีที่แล้ว ⁺²
如果考虑安全性，可以自己部署一套私有化的向量数据库服务
@donghuishi8959 ปีที่แล้ว ⁺¹
和图数据库结合使用会是未来发展方向吗??
@bestpartners ปีที่แล้ว ⁺³
这个是个很有意思的话题，回头可以做期节目讲一下
@yisun8656 10 หลายเดือนก่อน ⁺¹
prompt 读错了希望能够改正。这么重要和基础的词汇都读错了，会让大家对你讲的内容可靠性存疑。
@bestpartners 10 หลายเดือนก่อน ⁺¹
谢谢提出的意见，以后注意改正🙏🏻
@user-ev8nw3fu9n 6 หลายเดือนก่อน ⁺⁴
我猜你应该是看的哪篇文章或者一些博客资料翻译过来，然后照着读，因为有很多的话很明显不是口头语，本来可以很简便的说，还有一些英文单词夹在中文之间，那些英文单词翻译成中文也是很简单的，根本没必要说英文
@Jacklike443 ปีที่แล้ว ⁺¹
大飞还有哪些社交账号或者平台可以follow？
@bestpartners ปีที่แล้ว ⁺¹
没啦，就油管，专心做 TH-camr，哈哈
@Jacklike443 ปีที่แล้ว ⁺¹
@@bestpartners 可以搞个推，看到有价值的信息就推一下
@bestpartners ปีที่แล้ว ⁺¹
@@Jacklike443 回头看看，不一定有时间精力，哈哈
@SmashUncleSmithy ปีที่แล้ว ⁺¹
亨利莫莱森为什么这么像古天乐
@bestpartners ปีที่แล้ว ⁺²
这...你问我我问谁去
@shener6289 ปีที่แล้ว ⁺¹
谢谢您呕心沥血的内容和视频。一个不大不小的建议。您一直把prompt读成promot，让人有些出戏。
@bestpartners ปีที่แล้ว ⁺²
感谢批评，的确是读错了，以后注意改正。
@shener6289 ปีที่แล้ว ⁺¹
@@bestpartners 客气了。😀
@julianchen8711 7 หลายเดือนก่อน ⁺¹
llm去类比大脑，感觉太草率了，意淫的成份太大了，还是需要从数学底层抽象去思考更合适

ต่อไป

เล่นอัตโนมัติ

【人工智能】万字通俗讲解大语言模型内部运行原理 | LLM | 词向量 | Transformer | 注意力机制 | 前馈网络 | 反向传播 | 心智理论