【人工智能】爆肝万字介绍向量数据库和Pinecone | 向量搜索的演化过程 | LLM是人类的大脑,向量数据库就是海马体 | Pinecone的发展历程 | Pinecone直接和潜在竞争对手有哪些

แชร์
ฝัง
  • เผยแพร่เมื่อ 1 พ.ค. 2023
  • 00:00:03 引子
    00:01:43 给大模型增加记忆的三种方式
    00:02:36 向量数据库的应用场景
    00:06:58 向量embedding和搜索的演化历程
    00:17:05 Pinecone的发展历程
    00:27:11 Pinecone的竞争对手
    00:34:04 两个问题
    每天当我们睁开双眼,记录光线强度的信号传到视觉皮层,那里的神经元激活后形成对眼前事物的神经表征,这就是人脑真正理解和学习的对象。AI 模型的学习原理也并无二致,它实际识别和理解的不是一个个具体的文字符号,而是神经网络对各类数据的向量化表示,表示的结果便是向量 embedding 。在 AI 重塑软件的时代,向量作为大模型理解世界的数据形式,也可能促成新的重要基建:向量数据库。如果说 LLM 是容易失忆的大脑,向量数据库就是海马体,像 AutoGPT 这样需要记忆系统的多轮项目正在涌现,向量数据库的用量也陡然增长。其中增长最快的就是 Pinecone,他们用开箱即用的产品体验占据了 AI 应用开发者的心智。随着多模态大模型的出现,向量 embedding 会像 JSON 数据一样覆盖多个使用场景,需求量也将大幅增长。
    #向量数据库 #vectordatabase #pinecone #machinelearning
  • วิทยาศาสตร์และเทคโนโลยี

ความคิดเห็น • 61

  • @bestpartners
    @bestpartners  ปีที่แล้ว +7

    Pinecone: www.pinecone.io
    Weaviate: weaviate.io
    Chroma: www.trychroma.com/
    Zilliz: zilliz.com
    Vespa: vespa.ai

  • @ChenXiajie
    @ChenXiajie 7 หลายเดือนก่อน +5

    大飞的视频一直是这么详尽正面和通俗易懂,值得敬佩,请继续加油,感谢

  • @liyazhu4985
    @liyazhu4985 ปีที่แล้ว +5

    干货十足!盘点全面!!!太感谢了,经常来这里学习!

  • @user-ei3le8xf8j
    @user-ei3le8xf8j ปีที่แล้ว +14

    的確是對向量資料的專業解說,之前導入向量應用的公司僅限於大公司,未來向量資料庫和存儲需求在3年內一定會巨量增加👍
    想投資的可以關注了

    • @bestpartners
      @bestpartners  ปีที่แล้ว +3

      感谢观看,投资好机会👍

    • @maxxu8818
      @maxxu8818 11 หลายเดือนก่อน +1

      请问有什么stock投资机会?知道的公司都是startup, pinecone,weaviate, chromadb, milvus...

    • @bestpartners
      @bestpartners  11 หลายเดือนก่อน +3

      @@maxxu8818 建议还是买苹果谷歌亚马逊这些,向量数据库比较新,创业公司没有上市的

  • @Lawrencelj
    @Lawrencelj 2 หลายเดือนก่อน +1

    azure’s cognitive search and its indexing is vector based

  • @user-wm1yb3zi9x
    @user-wm1yb3zi9x 8 หลายเดือนก่อน +1

    这个科普太牛了! 非常值得学习!

  • @derek142
    @derek142 9 หลายเดือนก่อน

    感谢分享,学习了~

  • @jingqiwu2865
    @jingqiwu2865 ปีที่แล้ว +3

    讲的内容与最近要做的东西非常相关。存起来需要多次消化吸收。感谢博主。

    • @bestpartners
      @bestpartners  ปีที่แล้ว +1

      感谢观看,有帮助就好🙏

  • @sunwoe4014
    @sunwoe4014 ปีที่แล้ว +6

    説得對,向量數據庫只能充當短期記憶,而且和大語言模型的交互是單向的,還是無法讓知識“沉澱”進大語言模型中,因此若想形成長期記憶,最終還是需要額外訓練模型才能做到。
    因此還有一個領域叫 Continual Learning/Incremental Learning,可以讓神經網路在維持長期記憶的同時學習新知識,而且是形成長期記憶那種。
    希望能多講講有沒有大語言模型和該方向結合的應用和例子。

    • @bestpartners
      @bestpartners  ปีที่แล้ว +3

      感谢观看和建议,有时间做一期相关节目

  • @maxxu8818
    @maxxu8818 11 หลายเดือนก่อน +5

    现在不少开发者是从langchain开发AI应用,对于langchain的支持度,各家vectordb厂商也稍有区别。langchain的default是chromadb。

  • @l501l501l
    @l501l501l 11 หลายเดือนก่อน +5

    您好,有注意到一個問題,一般來說英文發音不是什麼問題,但是你把Prompting一直念成Promoting,就會影響語意的理解了。Prompting可能是你想表達的,但Promoting是指"升遷"或是"推廣"。

    • @bestpartners
      @bestpartners  11 หลายเดือนก่อน +2

      是的,这个的确是读错了,后续已经纠正,感谢指出

  • @stoneidolon
    @stoneidolon 8 หลายเดือนก่อน

    讲得很好

  • @yth2011
    @yth2011 10 หลายเดือนก่อน

    非常好

  • @Yueyelongbob
    @Yueyelongbob 11 หลายเดือนก่อน +1

    在做图像色块分析和色域缩减时,也是用到了向量对比,个人觉得主要的难点在于如何抉择各个向量值的比重,而且很多时候机器眼中的“间距”与人类所判断的“间距”是有差异的。举个例子,机器测温,和体感测温,感受绝对不同,机器需要理解人类感受温度的方法,按照人类的那一套来运算。

  • @user-vz2us4cr4d
    @user-vz2us4cr4d ปีที่แล้ว +1

    很专业全面,看好大厂基于云原生的向量引擎商业化,后续大概率会有更多厂商跟进向量赛道,持续关注是否会出现类似ES体量的产品

  • @kennet2811
    @kennet2811 2 หลายเดือนก่อน +1

    00:00 Adding memory to large models enhances their information integration ability
    05:30 Vector search is a process of finding the most relevant results by comparing vectors
    10:32 Vector search provides an efficient way to store and search unstructured data
    15:36 Vector databases play a crucial role in AI applications and multimedia data retrieval.
    20:11 Pinecone offers precise and fuzzy search capabilities.
    24:23 Pinecone is an easy-to-use Python library with good performance and strong real-time capabilities.
    28:43 Pinecone, Chroma, Zilliz, and Vespa are key competitors in the vector database market.
    33:02 Pinecone and its competitors are part of the evolving vector database market.
    Crafted by Merlin AI.

  • @shawnkirin410
    @shawnkirin410 ปีที่แล้ว +1

    虽说没听懂 但还是感谢分享!

  • @skyacaniadev2229
    @skyacaniadev2229 ปีที่แล้ว +6

    海马体个人感觉是个auto associator, 是记忆形成器(或者垮脑区突触发育启动器)。大脑里对标向量数据库的感觉更可能是与海马体相邻的 entorhinal cortex 内嗅皮质。Grid cell 给我的感觉就是生物体尝试建立向量数据库。

  • @OneOfKevin
    @OneOfKevin ปีที่แล้ว +1

    雖然還看不懂,但先點讚

    • @bestpartners
      @bestpartners  ปีที่แล้ว +1

      哈哈,谢谢点赞👍

  • @user-eh5oe6ge5v
    @user-eh5oe6ge5v 2 หลายเดือนก่อน

    几年前做图像内容检索的时候就用向量数据库了,感觉对于中小规模应用,使用比较简单,半小时基本就掌握了

  • @SmashUncleSmithy
    @SmashUncleSmithy ปีที่แล้ว +2

    模糊的准确,比准确的错误 重要

  • @dsyy3263
    @dsyy3263 ปีที่แล้ว +3

    虽然听不懂,但是还是认真听完了😅

    • @bestpartners
      @bestpartners  ปีที่แล้ว +2

      哈哈,多听就能听懂了

  • @frank_1972
    @frank_1972 ปีที่แล้ว +2

    🙋tks👍🔔📝↗️

  • @54870498
    @54870498 ปีที่แล้ว +3

    我就想說這麼多youtuber介紹了怎麼安裝autogpt, pinecone沒有一個人介紹怎麼用, 原來是因為有點難;後來直接看文本介紹才發現, 小白想輕鬆就上手使用還要一段時間學習曲線陡陡的, 感謝難得看到的完整介紹

    • @54870498
      @54870498 ปีที่แล้ว +4

      很多yotuber根本毛都不知道, 就知道git clone

    • @bestpartners
      @bestpartners  ปีที่แล้ว +1

      感谢观看,多提建议

  • @unidentifieduser5550
    @unidentifieduser5550 ปีที่แล้ว +2

    解说prompt每次发音都会发成 promote

    • @bestpartners
      @bestpartners  ปีที่แล้ว +2

      是的,非常抱歉,以后注意改正

  • @zfjvyvj8819
    @zfjvyvj8819 ปีที่แล้ว +1

    大佬牛鸡

    • @bestpartners
      @bestpartners  ปีที่แล้ว +2

      哈哈,牛鸡是什么鬼

  • @haoyin6886
    @haoyin6886 3 หลายเดือนก่อน

    prompt发音纠正一下

  • @yisun8656
    @yisun8656 10 หลายเดือนก่อน +1

    另外感觉你说的向量embedding也有错误。听内容和断句,好像你把embedding当成了向量的英文翻译了。

  • @zac1427
    @zac1427 ปีที่แล้ว +1

    我也大多听不懂,但是也听完了
    所以以数据安全为首要的公司就不会用第三方向量数据库吧,那但凡私密一点的数据,就很难去付费购买服务。还有想问一下Google 搜索出来的结果算是利用embedding 么

    • @bestpartners
      @bestpartners  ปีที่แล้ว +2

      如果考虑安全性,可以自己部署一套私有化的向量数据库服务

  • @donghuishi8959
    @donghuishi8959 ปีที่แล้ว +1

    和图数据库 结合使用 会是未来发展方向吗??

    • @bestpartners
      @bestpartners  ปีที่แล้ว +3

      这个是个很有意思的话题,回头可以做期节目讲一下

  • @yisun8656
    @yisun8656 10 หลายเดือนก่อน +1

    prompt 读错了 希望能够改正。这么重要和基础的词汇都读错了,会让大家对你讲的内容可靠性存疑。

    • @bestpartners
      @bestpartners  10 หลายเดือนก่อน +1

      谢谢提出的意见,以后注意改正🙏🏻

  • @user-ev8nw3fu9n
    @user-ev8nw3fu9n 6 หลายเดือนก่อน +4

    我猜你应该是看的哪篇文章或者一些博客资料翻译过来,然后照着读,因为有很多的话很明显不是口头语,本来可以很简便的说,还有一些英文单词夹在中文之间,那些英文单词翻译成中文也是很简单的,根本没必要说英文

  • @Jacklike443
    @Jacklike443 ปีที่แล้ว +1

    大飞还有哪些社交账号或者平台可以follow?

    • @bestpartners
      @bestpartners  ปีที่แล้ว +1

      没啦,就油管,专心做 TH-camr,哈哈

    • @Jacklike443
      @Jacklike443 ปีที่แล้ว +1

      @@bestpartners 可以搞个推,看到有价值的信息就推一下

    • @bestpartners
      @bestpartners  ปีที่แล้ว +1

      @@Jacklike443 回头看看,不一定有时间精力,哈哈

  • @SmashUncleSmithy
    @SmashUncleSmithy ปีที่แล้ว +1

    亨利莫莱森为什么这么像古天乐

    • @bestpartners
      @bestpartners  ปีที่แล้ว +2

      这...你问我我问谁去

  • @shener6289
    @shener6289 ปีที่แล้ว +1

    谢谢您呕心沥血的内容和视频。一个不大不小的建议。您一直把prompt读成promot,让人有些出戏。

    • @bestpartners
      @bestpartners  ปีที่แล้ว +2

      感谢批评,的确是读错了,以后注意改正。

    • @shener6289
      @shener6289 ปีที่แล้ว +1

      @@bestpartners 客气了。😀

  • @julianchen8711
    @julianchen8711 7 หลายเดือนก่อน +1

    llm去类比大脑,感觉太草率了,意淫的成份太大了,还是需要从数学底层抽象去思考更合适