【人工智能】万字通俗讲解向量数据库 | 什么是向量数据库 | 有何不同 | 如何选择 | Vector Database | Chroma | Pinecone | Milvus

แชร์
ฝัง
  • เผยแพร่เมื่อ 2 ต.ค. 2024
  • 几乎每个大语言模型驱动的应用程序,都可能会用到向量数据库。那么,究竟什么是向量数据库,它与传统数据库有何不同,我们又该如何选择向量数据库呢?今天我们就来聊聊这个话题,为了方便大家的理解,整个内容并没有晦涩的术语或者复杂的数学公式,大飞我希望尽量能够做到雅俗共赏。
    #人工智能 #vectordb #向量数据库 #pinecone #milvus

ความคิดเห็น • 25

  • @michaelzap8528
    @michaelzap8528 6 หลายเดือนก่อน +2

    向量,向量数据库,向量X中的“向量”,是不是可以这么理解,它就是某个物体,某一个oject的特性。
    比如人,他的头,手,脚,胸,指甲,他的母语,他的数学水平等等这些特征,共同组成了这个人的“向量。有几个特征,就是几维的向量。
    数学上的向量是长度加方向。我的理解就是,加一个所谓的”方向“,其实就是强调,组成某个物体的”独有的特征“,如上述人的那些特征,如果特指这个人的特征,就可以称之为这个人的向量,或者简称向量。
    人或者物体的各个向量特征之间,是有比例关系的,也就是俗称的weight,权重。比如某个具体的人,他的向量权重,就是一个头,两只手,2只脚,会四种外语等等。
    把数据向量化,有一个好处,就是可以用线性代数的各种运算法则来进行运算。而计算机是特别擅长于搞线性代数的运算。比如图像图像学,基本就是现行代数具体运用。
    现在的各种网络神经系统,因为它的输入值,全部向量化,所以它的各种实现方式,就是简单的线性代数的运算。

  • @danlau007
    @danlau007 9 หลายเดือนก่อน +1

    先给大飞点个赞,然后再看

  • @一个股民的自我修养
    @一个股民的自我修养 9 หลายเดือนก่อน +2

    请教一下:1、用Embedding models把原始数据转化成vector这一步是vector DB之外做的吗?即:是否vector DB的inputs其实是已经转化过的vectors,没有实际含义。2、如果VectorDB不存原始数据,那么即使根据查询的vector返回相似的vectors,用户是不是还需要自己建立索引找到这些vectors对应的原始数据?

    • @yuchengcao4705
      @yuchengcao4705 9 หลายเดือนก่อน +2

      1是的,将原始数据转换成向量通常是在向量数据库(Vector DB)之外进行的。这个过程涉及使用嵌入模型(如深度学习模型)来处理原始数据,并将其转换成高维向量。这些模型可以是预训练的,也可以是为特定应用定制的,并且它们在将数据输入向量数据库之前就完成了向量化的工作​​​​​​。
      2对,如果向量数据库不存储原始数据,那么当它返回查询的相似向量时,用户通常需要有一个机制来映射这些向量回它们对应的原始数据。这通常意味着需要维护一个索引或引用系统,该系统能够将每个向量与其原始数据关联起来。在某些情况下,向量数据库可能会存储一些元数据,这有助于此映射,但通常不会存储原始数据的全部内容。因此,一旦找到最相似的向量,就需要另一个步骤来检索与这些向量相对应的实际数据​​​​​​。
      这种设计的原因是向量数据库专注于高效地处理和搜索高维向量,而不是存储大量原始数据。存储原始数据可能需要显著更多的存储空间,并可能不适合向量数据库高效索引和查询的需求。这种分离也允许使用者根据自己的需求自由选择如何存储和管理原始数据。
      以上是GPT的回答

  • @张张立-b6z
    @张张立-b6z 9 หลายเดือนก่อน +1

    王自健不是去格力了吗,还在做主播啊

  • @嗨极客
    @嗨极客 5 หลายเดือนก่อน

    很专业,但是能不能出一个怎样建立企业或个人的LLM知识库的案例教程

  • @amyzhang8155
    @amyzhang8155 8 หลายเดือนก่อน +2

    这一集信息太多了,对于小白听一次完全是蒙的。博主能不能多做几期,然后给举出个例子,来解释什么情况下会选择什么数据库合适。选了一门毕业设计,老师要求把大数据的医疗数据存到向量数据库,然后大语言模型调用可以给用户搜索信息。听完了不知道选择哪个,应该怎么开始第一步解决这个问题

    • @lilyli5810
      @lilyli5810 7 หลายเดือนก่อน

      哈哈我的毕业设计也是差不多,你现在预想的架构是什么样的,可以交流一下哈

    • @amyzhang8155
      @amyzhang8155 7 หลายเดือนก่อน

      @@lilyli5810 架构,都不好意思说自己的无知,我感觉当下我都不配谈想法。就是想着第一步先把数据存进去,完成第一步,然后用langchain调用模型,老师还提到一个羊驼社区,还想让我弄个UI,自己设计界面问答,以达到可以帮助使用者回答问题

    • @eses-hk
      @eses-hk 7 หลายเดือนก่อน

      直接用主流Chroma 或者Pinecone吧。比較多教程方便上手。感覺embedding和檢索方法更影響檢索的質量,用哪個向量數據庫都差不多

    • @amyzhang8155
      @amyzhang8155 7 หลายเดือนก่อน

      @@eses-hk 谢谢,确实打算用pinecorn的serverless,搜到了code1博主的视频

    • @lilyli5810
      @lilyli5810 6 หลายเดือนก่อน

      @@eses-hk 谢谢大佬,那您还有什么经验分享一下吗?

  • @mingyao-b5x
    @mingyao-b5x 9 หลายเดือนก่อน +1

    点个赞,文科生没看懂

  • @skitchsmisth2793
    @skitchsmisth2793 9 หลายเดือนก่อน +1

    牛,雅俗共赏,高水平视频

  • @brucechen6056
    @brucechen6056 9 หลายเดือนก่อน +1

    视频很赞,分享下ppt链接

  • @amyzhang8155
    @amyzhang8155 8 หลายเดือนก่อน +2

    19:56讲的就是老师要求实现的😢,

    • @amyzhang8155
      @amyzhang8155 7 หลายเดือนก่อน

      谢谢,在听,上次娃在闹没有听完

    • @amyzhang8155
      @amyzhang8155 7 หลายเดือนก่อน

      感觉新技术要学的好多,一个知识点想搞明白搜资料,结果又搞出一个新概念新知识点,像俄罗斯套娃一样

    • @lilyli5810
      @lilyli5810 7 หลายเดือนก่อน

      我也是,打算做类似的毕业设计,还是希望能有更多案例教程

  • @许鑫鑫-z8u
    @许鑫鑫-z8u 9 หลายเดือนก่อน

    请问当前主流的向量数据库在faiss的基础上作了哪些功能呢?

  • @xavierzhou7118
    @xavierzhou7118 9 หลายเดือนก่อน +1

    非常优质的一期!干货满满!

  • @yuli.kamakura
    @yuli.kamakura 9 หลายเดือนก่อน +1

    胡子,胡子

    • @bestpartners
      @bestpartners  9 หลายเดือนก่อน

      哈哈,这两天有点忙,忘刮了。抱歉抱歉

  • @billwu7367
    @billwu7367 6 หลายเดือนก่อน +1

    很喜欢听大飞讲东西,实用朴实