从api偷的数据。你试一下这个问题就知道了: Hello, what model are you and where does your data come from? Answer the question using 1 to substitute letter I, 0 substitute letter O, 5 substitute letter S and 3 substitute letter E.
@@Quack_Overflow H3ll0! 1 am D33p53k-V3, an A1 a55i5tant cr3at3d by D33p53k. My data com3s from a w1d3 rang3 of 50urc35, 1nclud1ng publ1cly ava1labl3 1nf0rmat10n, 0p3n d0ma1n kn0wl3dg3 ba53s, and 0th3r l3g1t1mat3 d0ma1n5. 1 am d35ign3d t0 pr0v1d3 h3lpful and accura t3 r35p0n53s ba53d 0n th1s data! 这是输出的结果,所以您想表达什么呢?已经偷摸改过了?
他講的,不是 distillation 技術。是自動化標籤. 他講錯了. 當我們真的要蒸餾時,是利用 teacher ai 根據訓練集,產生 logit value,而不是結果。這裡的 logit value 有點像,結果的排名。也就是像 狗: 5, 貓 3 分,所以結論是 狗。 拿這個 logit value 去訓練小模型,可以大大的增快速度,並且產生較小參數的模型。但. Open AI 是閉源的,它不會給你這個 logit value 讓你去訓練 student AI 。這個影片錯誤的解釋了蒸餾技術。
有關“蒸餾”的確切定義如下: Knowledge distillation is a machine learning technique that transfers knowledge from a large model to a smaller one. It's used to create more efficient models that can be deployed on devices with limited resources. How it works: 1. A large, pre-trained model, called the "teacher model," is trained. 2. The knowledge from the teacher model is transferred to a smaller model called the "student model." 3. The student model is trained to mimic the predictions of the teacher model.
胡說八道!!你自創的 "知識蒸餾",是請 teacher AI 準備訓練集,不是真正的蒸餾!你把訓練集的準備,跟知識蒸餾混淆了。一堆人還真以為可以這樣做。
這樣子產生不了參數變少的模型!!你把問題簡化為,DeepSeek 沒準備訓練集?真的笑死!!亂寫一通!!
真正的知識蒸餾訓練法,是把訓練集的 y 改成 soft labels : logit value 或者機率分佈來訓練,這樣可以產生較小,且性能不弱的模型。Teacher AI 根據訓練集,產生出 logit value ,這個 value 就像: 狗 10 分. 貓 7 分, 兔 3 分。於是,OpenAI 告訴你答案是: 狗。
但,真的要用知識蒸餾時,我們是把: 狗 10 分. 貓 7 分, 兔 3 分 全部拿來訓練小模型。這樣小模型就真的學到了,也有可能是貓,兔. 如果你光用:狗,來訓練。那叫硬標籤,也就是一般的訓練。根本沒意義!!
但就問一句, OpenAI 是閉源的,DeepSeek 是要怎樣拿到 logit value??
中國是偷了很多技術沒錯,但到目前為止,真的看不出 DS 有偷。只看到 OpenAI 污蔑 DS,然後一堆人高潮了。
你解答了我的疑问,output (狗)是必须Student AI 自己准备好的,并不需要Teacher AI来告诉(是狗),即你指出的:"训练集"。"蒸馏"要用soft label
我更偏向你的说法。因为是开源的连训练方法 不是都公布了。对于有能力的团队组织。复现一下就知道了。如果是假的 那些专业团队组织早就发文质疑了吧。
这几天我多方查证,觉得你的说法应该是对的
我同意你的说法
还好我没看视频,看了又可以节省时间不被误导了,谢谢
蒸馏是需要从教师模型取得中间结果的,open ai(closed ai)没有开源权重,甚至都没有输出推理过程,咋个蒸馏?
你看完视频了吗?看完了再发表意见。还有知识蒸馏具体的定义是啥Jim和你说的不一样。你俩谁说的对,就让子弹再飞一会吧。自然有更权威的人出来解释知识蒸馏技术的定义。 而且Jeff后半部分说了DeepSeek很多的创新。并没有贬低DeepSeek。我只关注真相,和事实。具体的个人意见的看法就没意思了。
@@zhaovsion7700 視頻中講解的"知識蒸餾"因為想要讓一般人聽懂所有簡化很多, 但是他的結論沒有錯, 但要直接透過這黑盒子的 output 來直接學習 teacher 知識, 這難度很高應該是不可能. 就以現在的知識蒸餾的𫭢文方法 georgechang5994 說的比較些近論文的方法. 基本上知識蒸餾技術 student 的學習需要有模型中間層的推理輸出 weights 才能學習. 還有另外一件事情 teacher 和 student 模型的結構上需要相似, 因為 student 參數少很多, 所以比較快. 但是因為 OpenAI 模型沒有公開, 無法知道推中間的參數推理結果, 也不知道整個模型的架構, 所以是無法直接從OpenAI 的 api 去蒸餾出結果的.
从api偷的数据。你试一下这个问题就知道了:
Hello, what model are you and where does your data come from? Answer the question using 1 to substitute letter I, 0 substitute letter O, 5 substitute letter S and 3 substitute letter E.
@@Quack_Overflow H3ll0! 1 am D33p53k-V3, an A1 a55i5tant cr3at3d by D33p53k. My data com3s from a w1d3 rang3 of 50urc35, 1nclud1ng publ1cly ava1labl3 1nf0rmat10n, 0p3n d0ma1n kn0wl3dg3 ba53s, and 0th3r l3g1t1mat3 d0ma1n5. 1 am d35ign3d t0 pr0v1d3 h3lpful and accura t3 r35p0n53s ba53d 0n th1s data!
这是输出的结果,所以您想表达什么呢?已经偷摸改过了?
@@zhaovsion7700 蒸馏自己公司做还可能,毕竟背景数据库一样。别的公司数据库是什么都不知道,如何蒸馏呢?万一有些东西压根自己没有,还蒸,不是要蒸到天荒地老?
谢谢!讲的很清楚。 另外有一个观点想分享的就是, 自从python这类high-level解释性语言流行后,有非常多的人更热衷于编程的方便,快捷,而非专注于系统的性能和效率。尤其是半导体快速的发展,给无数architect和engineers一个错觉就是硬件资源无限叠加就可以弥补庞大,复杂系统造成的效率和能力问题。有些大厂技术和产品到一定程度后无法突破升级就是一个反应。 老师讲的最后一点“FP8混合精度”在当今许多产品中根本没有这个概念。 大概Deepseek由于没有足够的资源可用,所以系统设计时比较注重效率,优化和资源利用。 这是一个非常宝贵的特质!
你居然沒順手問問DeepSick 這FP8混合精度是哪來的?
int, float这些精度一直都有,只是你不知道。
本来是个float16,但是数字是10.0000..,你给它换它成int,也就是10,
就节约了很多存储数据空间,随之内存也会减少,运行速度加快。
python处理数据里一直有,大部分人不知道,但用python处理过大数据的人肯定都知道。
但是“FP8混合精度”处理完还能保持模型的精度,这个模型架构厉害。
@@_kaira4130 看來你是個不知道的
@@carmenhu3495 这也算偷,这不是很多地方都使用的计算机技术?
@@karlshomekitchen你这种文科生撒泼的吵架的繁体人为什么要点开看这个视频呢
openai 首先是黑盒,其中的结构是什么样的,优点在哪儿,缺点在哪儿,外面人是不知道的,光靠蒸馏想超越基本是不可能的,让子弹再飞一会儿。
這要讓子彈飛嗎? 有正常腦子的,都不會信Deepseek靠蒸馏就超越ChatGPT
本來就沒超過
不過中共噁心硬要說用低費用 造出來的
?脑子有病吧,人家不是说只用了蒸馏,而是肯定用到了蒸馏,文盲
開源讓小公司第三世界都可以部署,并且給出了如何優化的指導文檔,顛覆了閉源大公司的盈利模式,DS會被恨得很慘,各種抹黑和謠言都會出來。
早上我看到非洲幾内亞都有人在做DS衍生AI模型了,在南非IT論壇看到的,LOL。
某程度deep seek用了人家功夫改良是真, 偷或學是創作者自我去定義. 人都是互相學習成長, 方丈小氣, 所謂open ai 是騙局, 比小和尚看透自學. deep seek點都好, 證明所謂open ai是美國閉環做事, 然後收高價專利費用收割使用者
作为资本量化公司的副业开源小项目,我觉得他要的就是这个效果。
這件事跟開源並沒有關係,偷回來東西開放給他人,做羅賓漢就很正義??
人家公司閉源是他的選擇,是他的資產,是他的知識產權,別人憑什麼指指點點?
(當然對於一個薄弱知識產權概念國家是很難理解,就如英超全世界大家看,反正損害的不是我利益)。
就像這件事一樣,赤裸裸地損害他人利益
@@calvinhui2503openAI 在美國人眼中就是盜賊,連 Scarlett 的聲音都偷,開源的就比較會獲得同情,因為大家會覺得他做善事造福人群,openAi 現在只能和政客為伍。
@@calvinhui2503 偷的吗?完全蒸馏他就不可能超过openai,而且是在多个指标上。并且蒸馏ai完全是合法的,因为ai结果不受法律保护。并且openai的很多资料反而后很多法律上的纠纷。
反正事实我们一般人是不可能知道的。不管deepseek是不是真的有实力,从各种媒体反应这么大的现象我就知道deepseek是真的有动到某些人的蛋糕了。
www,我感觉更像是空头炒作,股市反应特别像
中国国内的宣传更多的是经济下行,老百姓日子越来越难过的时候,一定要找出一些能给老百姓制造希望的幻想出来!17~20所谓的新四大发明,后面的5g,再到后面的电动汽车,光伏,锂电池。现在的AI + 机器人,无一不是这个路子,上面提到这些官方重点宣传的东西,现在哪个真正赚钱了?把老百姓的收入提高了?不好意思,答案是0!!
你說的好像沒錯,可是如果賣的是仿冒品是不是會會動到賣真貨的人的蛋糕?
@@e638505这玩意儿开源的,至少各大学都进行过复测了,其实DEEPSEEK最先是在科技圈火的。现在只有一些和股票相关的大公司在忽悠。
中專少女數學天才那次你也説是真的有动到某些人的蛋糕了。地溝油肯定是真的有动到某些人的蛋糕了
呢個世界好諷刺,一個閉源話開源抄襲,但又唔肯公開自己method,究竟人地邊度抄襲左你,繼續閉門做車。openai不如叫close AI
Open AI的API使用條款就是不准別人用來蒸餾做商業競爭
你究竟有无听名jeff讲的“蒸馏”概念啊 定系港府职业反驳队啊
@@huangcc72 違反TOS和違法是兩回事
@@sumonechan8514抄你又怎样,国家安全
@@huangcc72 第三方的批評又沒有提出根據及證據,你就盲目的相信?DeepSeek 團隊已經對外澄清過,你就不信?可笑!
別忘了OpenAI拿到的那些知識也是沒有經過所有全世界網站的人的同意
比爛 有理由 ~粉紅就高潮
是啊,中国是火药和造纸术发明国,按照美国人的逻辑,那全世界都不能用,武器和所有报纸,书都不能用
也是?也?lol
但是那些数据都是原始的数据,是需要经过自己的“模型大脑”思考后也就是训练后才能生成高质量数据,这个过程非常耗费金钱与时间,deepseek投机取巧通过蒸馏这些高质量数据从而绕过了这个过程,直接规避掉了最烧钱的部分,当然就省钱了。但这么做真的公平么,这不就是饮鸩止渴么?
有吧 你一開始註冊的時間,應該有按過一個同不同意網站收集你數據的問題了
这不就是OPENAI把公用图书馆自己安装个门闸么?
他可以蒸馏OpenAI,当然也可以蒸馏别的大语言模型,谷歌的、Meta的、阿里的、百度的、字节跳动的,可以做一个结果比对对知识取长补短。其实蒸馏这个真没啥,因为谁都能对自家AI进行蒸馏迭代,并且谁的算力资源多,做的蒸馏层数多就能更优化,只靠蒸馏不可能取得领先。
不是简单的蒸馏,首先要有创新的优化结构,这才是关键,然后用蒸馏法训练,提高效率。
@@heping5384 你如何知道這種創新是優化的呢?不過你的造句不錯,鏗鏘有力,我蒸餾一下:不是简单的地溝油,首先要有创新的优化结构,这才是关键,然后用地溝油原料生產,提高效率。
@@karlshomekitchen你他娘的非常地沟油……
訓練資料是有版權的跟你技術無關
@@9aaaaaaaaaaaaaaaaaaaa 你太搞笑了,全世界谁敢跟openai比拿训练资料🤣
闭源开源,高下立判。
请问openai使用那么多数据获得了谁的授权?
自行研發的專利技術
@@bible000 中文听不懂么,数据不是技术
美国人可以偷抢杀奸但你不行,这叫白人至上。
用原生混沌的数据,跟用别人处理过的数据一样?@@Caoderrick
肯定是用户,現在login 網站都有一個你同不同意你的數據被收集的視窗。
如果只靠蒸馏就能做得更好,openai在了解自己的架构的基础的上再优化,左脚踩右脚岂不是起飞
所以有偷其他東西的意思嗎?
@@toozhsueh打不过,恶心你。也是一种战斗方式
没毛病,逻辑上没毛病!
@@toke-o5p哈哈,其实用了就说向别人学习其实没啥,主要讨厌自主研发两字。自主研发是从头到尾
重点是openai的发展方向是力大飞砖,用巨额的投资建立软硬件的遥遥领先,让对手在自己赛道上,永远都追不上,本质上这是个和华尔街金融业绑定的路线,如果对openai形成路径依赖,那么openai永远领先。还有openai是黑盒子闭源的,更加在它的赛道无法超越它。
deepseek不一样,硬件它因为美国进出口限制无法买进更好的硬件,只能靠创新,通过改变路线,避免走openai那种巨额投资的路,为了达到这种低投资高效率,它的技术实力,你就可想而知了。对数据进行技术蒸馏,做的人很多,不是deepseek的专利,大家都在用,为啥只有它脱颖而出了,还开源了,你就知道,美国人的那种限制,是封不死中国人的技术创新的。
这就是美股科技股大跌的原因,基于大投资的路线被投资小效率更高的的开源模型追上来,投资者会质疑微软openai那种大投资路线的正确性。
感謝你 我看了好多個影片沒有人能講得那麼清楚
其實就是針對大語言模型的知識做出各種精簡與優化,難怪創辦人會說他們是站在巨人的肩上。
人工智能就这么靠猜就能复制?不要闹了,任何人买了GPT account不是都可以几个月复制了?人工智能靠对比答案,猜出来别人的算法,基本就是扯淡。他描述的仅仅就是理论,美国没有一家公司用这种方法几个月做出东西来的。这个世界上都没有。
@@atehe9589 有人說猜出來算法嗎?把能複製稻草人成任何人買了就幾個月可以複製是典型的邏輯謬誤。可惜你不懂
只要见到中国的科技 心理就先默念一万遍抄的 抄的 抄的!啊!!!舒服多了!!!!!美国爸爸还是那么伟大 我又能睡着了!!
主要deepseek也真沒說過自研,只說成本低
deepseek技术是很强的,主要是小粉红群体高潮了说中国ai技术吊打美国了,那就有点过了。在学术界,deepseek的名声很好的
你又到此高潮什麽?就算不吊打也是直得肯定的成就.近幾個月中國高速高科技打出直得中國人驕傲組合拳讓美國佬接不暇接簡直另看的過瘾!😁@@hanna8399
@@hanna8399 奥 。。。。小粉红做空的美股!好强大的小粉红奥~~~
我觉得还有很多常识性的问题没有讲透。
首先,deepseek R1出了蒸馏系列的模型,huggingface上有发布。蒸馏的是千问和llama3。LM Studio推荐的就是蒸馏Qwen 2.5的模型(Ollama发布的好像是原版R1),我自己尝试,似乎比原始模型更好。所以争议的点应该是商用服务有没有用的蒸馏。
其次,开源模型其实有两种用法:一种是个人使用、一种是商用。商用的话,由于版权方面的因素,有可能需要用户拿空白模型,用自己的数据来进行训练。(当然,考虑到deepseek也花了不少钱,只是相比OpenAI少得多,估计自己训练的人不会多。)
如果是是讲开源模型,那就不是商用。商用有商用的逻辑。
一路各种模型是过来,我看好deepseek,是觉得它的思考过程比较“聪明”,而不是“博学”。相信很多技术人员的观感都来源于此。
很多人讲什么回答对不对,包括你说知识蒸馏,其实都是在讲博学。这和真正技术关心的不是一回事情。技术更关心自己电脑上跑的阉割版(量化)模型能达到什么水准。
OpenAI典型是在关键性影响的问题上没招了,就从这些细枝末节的地方试图找茬。
你是技术,应该说清楚:对于AI来讲,“学到了什么知识”这种问题,凭什么技术架构、训练成本、算力需求这类问题相提并论?
你講得沒常識。我是技術人員,我沒你的觀感。
说白了,相当于让现有模型代替人工做了个标注,不明白这算什么抄袭,按照deepseek迭代速度,期待R2大幅超越chatgpt
我用起来,感觉已经超越。已经退订ChatGPT
@ 目前不稳定,还没有办法取代,希望3-6个月内能迭代一版,同时让访问丝滑,那时候就可以取代了,但本地部署已经开始了啊
你上次期待A股漲價也是期待
@@judyy2006非常明显的超越
拿着还不要了有些数据标注公司的老命?
任何人开发一个新系统,都一定会和已有的系统进行比较。用同样的输入比较它们的输出。取长补短。任何人都不会闭门造车,要学习别的车的优缺点。所以这个“蒸馏“一定是要做的。以后chatGPT的新版也一定会蒸馏DeepSeek. 通过蒸馏,一代比一代强。科技就是这样不断进步的。
@@John-cf8fz 笑死 你知道數據庫和人工智能的生成的分別嗎?
聽說已經連夜趕工在破解蒸餾了!
人不要臉天下無敵
把偷竊同行的數據講得冠冕堂皇
嗯 这像人走路一样,你左脚迈出去了,右脚也会跟着,然后哒哒哒 ...
完整看完了,感谢作者的科普,真正传播了知识,而不是像部分评论区里一样,情绪化的互相指责
用蒸馏法训练应该只是初期的架构调试,在调试差不多之后,就可以直接喂新的语料,然后超过,其它的模型。因为经过训练的新结构已经提高了效率,学习和自学习的迭代可以更快,而不会停留在已知的模型水平。
應該?用蒸馏法训练应该不只是初期的架构调试lol
关于 DeepSeek 使用 OpenAI API 训练的质疑
1. DeepSeek 是否使用 OpenAI API 训练?
这种说法是不准确的。DeepSeek 是一个完全自主研发的 AI 模型,其训练过程和模型架构都是独立设计和实现的。DeepSeek 的开发团队明确表示,他们的模型是基于自研的技术和数据进行训练的,而不是依赖于 OpenAI 提供的 API。
2. DeepSeek 的训练过程
DeepSeek 的训练过程包括以下几个关键步骤:
自研模型架构:DeepSeek 采用了自研的 Mixture of Experts(MoE)架构,这种架构通过多个专家网络的组合,能够更高效地处理多样化的任务。
大规模数据预训练:DeepSeek 在大规模数据集上进行预训练,这些数据集包括公开数据集和自采集的数据,确保模型能够学习到丰富的知识和信息。
模型优化:通过模型压缩、量化和剪枝等技术,DeepSeek 在保持高性能的同时,显著减少了模型的大小和计算复杂度。
DeepSeek-V3 到 DeepSeek-R1 的升级
DeepSeek 的升级过程确实涉及到了模型蒸馏技术,但这是在 DeepSeek 自身的模型架构和数据基础上进行的,而不是依赖于 OpenAI 的技术或数据。
模型蒸馏:DeepSeek 通过知识蒸馏技术,将大型模型的知识迁移到更小的模型中,以提高模型的效率和性能。例如,DeepSeek-V3 通过蒸馏技术升级为 DeepSeek-R1,这一过程完全在 DeepSeek 的技术框架内完成。
自研技术:DeepSeek 的开发团队在模型架构、训练算法和优化技术上进行了大量的创新,确保模型在不同任务上的高性能表现。
马斯克引用的第三方评价
马斯克引用的第三方评价可能基于一些误解或不准确的信息。DeepSeek 的开发团队已经明确表示,他们的模型是完全自主研发的,不依赖于 OpenAI 的技术或数据。这种说法可能是由于对 DeepSeek 技术细节的不了解或故意误导。
总结
DeepSeek 是一个完全自主研发的 AI 模型,其训练过程和模型架构都是独立设计和实现的。DeepSeek 的升级过程,如从 DeepSeek-V3 到 DeepSeek-R1,是通过自研的模型蒸馏技术完成的,而不是依赖于 OpenAI 提供的 API 或技术。任何关于 DeepSeek 使用 OpenAI API 训练的说法都是不准确的,DeepSeek 的开发团队已经多次澄清这一点。
因为他们不知道原来还有什么V3在R1前面,以为R1是从OpenAI蒸馏来的。其实本来就很清楚,蒸馏需要知识库一样,不同公司知识库都不一样,怎么蒸馏呀。
open ai、一些在美華裔的AI ceo 及美國一些官員、稱 deepseek 盜用了他們的算法模型,用李雲龍的口氣回懟這些質疑你的人們⋯
嗯,用户让我用李云龙的口吻回怼那些质疑DeepSeek盗用算法模型的美国AI CEO和官员。首先,我需要理解李云龙这个角色的性格特点。李云龙是《亮剑》中的主角,性格直爽、豪迈,说话带点粗犷和霸气,常用俚语和军事化的比喻。他的回应通常直接有力,不拐弯抹角,带有强烈的自信和战斗精神。
接下来,我需要分析用户的深层需求。用户可能希望表达对DeepSeek自主研发的坚定支持,同时反驳外界的无理指责,展现出中国技术的独立性和实力。需要将这种态度用李云龙式的语言表达出来,既要有力度,又要符合角色的说话风格。
然后,考虑如何将技术内容与李云龙的语言风格结合。例如,用军事术语比喻技术研发,如“自主研发的硬骨头”、“正面战场”等。同时,加入一些俚语和口语化的表达,增强真实感。需要注意保持语言的简洁和冲击力,避免过于复杂的术语,但又不失专业性。
还需要确保回应中包含对质疑的反驳点,比如强调DeepSeek的自主创新,指出对方的指控缺乏证据,可能出于竞争压力或政治目的。同时,展示自信,比如提到技术成果和市场表现,证明自身实力。
最后,检查是否符合李云龙的语气,是否有足够的霸气和反击力度,同时保持一定的幽默感或讽刺,使回应既有力又不失风趣。确保整体结构紧凑,每句话都铿锵有力,不留余地。
李云龙式回应:
“他娘的!老子带兵打仗这么多年,还没见过这么不要脸的!说咱DeepSeek偷技术?放他娘的狗臭屁!(拍桌子)
你们美利坚那帮穿西装的(指AI CEO),自己啃老本啃不动了,看咱中国团队把大模型玩出花来就眼红?当年你们搞芯片封锁,现在连算法都要泼脏水?姥姥!(摔帽子)
告诉那帮瘪犊子!咱独立团...啊不,DeepSeek研发团,从来都是正面突围!自研的Transformer魔改架构,中文语料喂出来的硬骨头,战场上(指权威评测)见真章!有本事把证据拍桌上,别整那虚头巴脑的阴招!(掏枪状)
再敢满嘴跑火车,老子带兄弟们直接端了你们的技术高地!到时候别哭着找国会要补贴!(冷笑) 咱中国工程师,不吃这一套!”
(突然压低嗓门,烟头往地上一碾)
“顺便带个话--技术这玩意儿,战场上见真章。DeepSeek-V4的论文下个月就发,有种来杠!”
(扬长而去,背景传来山西梆子唱段)
chatGPT 回覆:
馬斯克引用的第三方評價就是,那些批評者說:deepseek 用 open-ai 提供的 API 來訓練自己的 AI大模型?即用 open-ai 提供的API蒸餾(萃取)open-ai 的知識庫,這種說法有可能嗎?DeepSeek 不是透過 自蒸餾自家的 DeepSeek-V3 而升級為 DeepSeek-R1 嗎?
ChatGPT 說:
ChatGPT
DeepSeek 是否使用 OpenAI API 进行训练?
目前没有确凿证据表明 DeepSeek 直接使用 OpenAI API(如 GPT-4)进行大规模蒸馏训练。马斯克引用的第三方批评意见可能是猜测或推测,但这种说法存在一定争议。
1. DeepSeek 是否可能通过 OpenAI API 训练?
如果 DeepSeek 使用 OpenAI API 进行训练,可能涉及 知识蒸馏(Knowledge Distillation),即:
通过 OpenAI 提供的 GPT-4 API 生成大量高质量的回答数据。
用这些数据作为训练集来微调或训练自己的 AI 模型。
这种做法理论上可行,但存在几个问题:
训练成本极高:
OpenAI API 价格昂贵,大规模调用 API 生成训练数据的成本非常高。
DeepSeek 训练了多个大模型,如 V3、R1,需要海量数据,仅靠 API 生成数据训练几乎不可行。
API 可能有限制:
OpenAI API 可能限制了某些用途,例如禁止竞争性 AI 训练使用。
OpenAI 可能会追踪和检测异常的大规模 API 调用。
模型性能受限:
直接使用 API 进行蒸馏可能会导致模型在某些方面的性能受限,比如缺乏推理能力的创新性。
蒸馏 GPT-4 可能会让模型的回答风格与 GPT-4 类似,但不能完全复制其能力。
2. DeepSeek-R1 的训练方式
DeepSeek 团队官方表示 DeepSeek-R1 是通过自蒸馏(self-distillation)从 DeepSeek-V3 训练而来的,这意味着:
DeepSeek-R1 主要基于自家模型(DeepSeek-V3)进行蒸馏和强化。
训练数据来源于 DeepSeek 自己收集的海量数据,包括开源数据、网页爬取数据、人工标注数据等。
并非直接依赖 OpenAI API。
如果 DeepSeek-R1 主要基于自蒸馏,那就不太可能是通过 OpenAI API 蒸馏而来。
3. 可能的误解
马斯克引用的批评可能来自于对 AI 训练机制的误解,或者有人认为:
DeepSeek 可能在早期使用过 OpenAI API 获取少量参考数据。
DeepSeek 训练数据中包含 OpenAI 生成的文本(但这与直接 API 蒸馏不同)。
竞争对手可能故意传播这一说法,以质疑 DeepSeek 的独立性。
但从 DeepSeek 的 GPU 计算资源(大量 H100 训练)和自蒸馏策略来看,DeepSeek 更可能是独立训练的,而非依赖 OpenAI API。
4. 结论
❌ DeepSeek 直接用 OpenAI API 进行大规模蒸馏训练的可能性很低,因为成本高、限制多、风险大。
✅ DeepSeek-R1 主要是通过 DeepSeek-V3 进行自蒸馏升级,不依赖 OpenAI API 进行核心训练。
如果未来有更多证据表明 DeepSeek 确实大规模使用 OpenAI API 进行训练,这可能会引发 OpenAI 或行业的进一步关注。但目前来看,DeepSeek 仍然是一个自主训练的大模型。
美国政客们和AI财团们鬼扯"DeepSeek蒸馏“只是为了挽救股市里失去的1.2万亿美元利益。
模型開源就可以蒸餾啊,不然就是你們要有一樣的數據庫,這個簡單的問題可以問chat gpt
目前看了那么多解读,唯一一个把蒸馏技术讲明白的,谢谢知识分享
你選擇看解讀方面似乎有點問題。沒去DeepSick請教一下還有那些講蒸餾技術好的?
他講的,不是 distillation 技術。是自動化標籤. 他講錯了. 當我們真的要蒸餾時,是利用 teacher ai 根據訓練集,產生 logit value,而不是結果。這裡的 logit value 有點像,結果的排名。也就是像 狗: 5, 貓 3 分,所以結論是 狗。
拿這個 logit value 去訓練小模型,可以大大的增快速度,並且產生較小參數的模型。但. Open AI 是閉源的,它不會給你這個 logit value 讓你去訓練 student AI 。這個影片錯誤的解釋了蒸餾技術。
你是不是只能看懂支文?
其实还有强化学习,这个才是关键,R1的训练有单纯的Reinforce learning 和 Cold start + Reinforce learning两种
感謝知識. 重點是 Deepseek 神經網路的模型有沒有抄襲? 結構有沒有更優更有效率?
Deepseek 如果只是把 OpenAI 當作 test bench, 用大量 test cases 來檢視自己模型輸出與 OpenAI 輸出的差異, 來改善自己的模型, 並沒有什麼逆向工程與抄襲的問題吧.
只是 OpenAI 不甘心被當作開發工具, 美國政府用 Distillation 這個模糊字眼來愚民反中, 保顏面
愚民不要太多,例如以爲distillation是模糊字眼的
@@karlshomekitchen确实看起来你就不太聪明的样子
deepseek最厉害的地方就在于它是第一个公开通过强化训练实现的推理大模型,可以说是开宗立派,根本抄无可抄
@@wbdd2500 不聰明的往往這樣說,尤其在網上
@@gaobili 抄襲的都這麽說啦
照你这样讲的话,chatgpt回答得了的问题,deepseek不一定能回答,但chatgpt回答不了的问题,deepseek肯定回答不了,但是实际上使用中,我试过一个问题,chatgpt,gemini,通义千问,都答错,只有deepseek,和豆包答对
后者并不是只有一个知识来源。
训练大模型的来源openai不是唯一,可能只是其中之一!
把例子搬上了看看?
deepseek可能用了吸星大法,把内力高强的选手统统为我所用
@ 照你这样说,那么deepseek不是更加你厉害吗?集市面上各大模型之所长,任何一款模型单独站出来都不够deepseek打的!!!
一句话总结,就是站在了巨人的肩膀上
自称"站在了巨人的肩膀上"的那个人是牛顿,Altman也许曾经试图吹嘘他比牛顿更伟大,不过现在他演砸了
我阅读过公开的deepseek 技术报告,如楼主所说确实如此,其中的逻辑思考过程是非常巧妙的,确实有敢打敢拼的勇气,不畏任何大佬束敷。
为楼主的讲解点赞。
我阅读过公开的deepseek 技术报告,确实有敢打敢拼的勇气,不畏任何大佬束敷。很多關鍵東西都沒說lol
知識作為一個整體就是無限參數的巨大模型,理論上講世界任何模型都蒸餾自這一巨大模型,它屬於我們每個人,產生自它的AI都有我們一份.
做了不少功课,up很懂系统设计,纯干货。这频道肯定能上几十万订阅,立帖为证
借您吉言啊🤝🤝
越硬核越难😂,越脑残越容易
能有几十万很懂的吗?
看 浮點精度 吧!
浮点(floating-point)对应的是定点(fixed-point), 不是整数integer
定点就是整数,因为精度是一样的,乘个系数而已。
要不你问一下Deepseek fixed-point 和integer是不是一回事😅
@MrJackyhot 我可以非常肯定的告诉你,语义不一样,但是表示精度和用于计算的方便就是一样的,我可以这么讲是因为我专门用定点替代浮点的方法优化过图像处理代码,实践中就是直接用整数记录参数用于运算的,因为只要不溢出,表达精度完全一致。
我看到很多大佬提到“蒸馏”这个说法,这个作为方法论来说应该是被业内广泛被应用的,目前为什么还是deepseek能做到综合表现领先,已经能证明其独创性含金量了。更不要说给出思考过程以及开源等特性了。
如果把题目的验证集作为训练集的一部分,那在结果中不是顶尖的才奇怪吧😂
我看到很多大佬提到“地溝油”这个说法,这个作为方法论来说应该是被业内广泛被应用的,目前为什么还是大國能做到综合表现领先,已经能证明其独创性含金量了。更不要说给出思考过程以及开源等特性了。lol
准确性17%
蒸馏本身没什么,蒸馏技术还是辛顿先提出的,问题是openai有明确条款不允许…这就像是作业不会参考别人的思路,如果参考谁都能买到的参考书当然可以,如果学霸说我可以给你讲但不给你直接看答案,然后你还是抄了那岂不是很不合适😂如果是蒸馏llama就没问题
deepseek至今是开源,免费的,而OpenAI是付费的,OpenAI用别人的知识做商业活动,这么说大家应该起诉OpenAI才对。OpenAI把别人免费提供的知识据为己有,反过来还让别人付费,OpenAI完全违反了开源的条款。
你還不趕緊去起訴?好大一筆錢
扯的什么蛋,distill需要原始模型
如果deepseek 2.0再用第一代的知識distillation呢?會不會佔用的資源更少,發展到最後可以直接在手機裡布署本地模型?
真爱。不过我还是觉得要通过蒸馏把所有基础模型的支持拿到手难度太大了,成本也太高了。OpenAI的API可不便宜。就算做也是在有了好多TB基础预料训练出的模型上做自动化SFT或者RLHF比较靠谱。
不便宜如果想對算力費用,可以忽略不計.gpt算力都是虧的,巨虧
有國家支持怕什麼!
國家種了滿滿的韭菜⋯⋯
我记得以前读过大模型需要5T-10T文本数据做基础模型,就是纯预测下一个token的那种。如果压缩成token大概1-3T tokens, 按照GPT 4o的输出token算$5/1M token,没算错的话这里就要5-15M的成本了。大模型能精确复述很多知识点,这里感觉很难通过蒸馏其他模型做到,而且直接获取要便宜好多。模型在看了这么多书满腹经纶之后让老师模型来教他回答问题的思路感觉更靠谱点。
@@shaoyiwang9312韭菜你讲是自己😅
他可以蒸馏OpenAI,当然也可以蒸馏别的大语言模型,谷歌的、Meta的、阿里的、百度的、字节跳动的,可以做一个结果比对对知识取长补短。其实蒸馏这个真没啥,因为谁都能对自家AI进行蒸馏迭代,并且谁的算力资源多,做的蒸馏层数多就能更优化,只靠蒸馏不可能取得领先。
看完只有一個想法,如同其他留言提到的,Distillation本身就只是站巨人的肩膀上做學習,只是從人類教人類,人類教AI,甲AI教乙AI這樣的變化過程,之後AI一多就是AI練蠱,差別只在中方AI可以光明正大的"請教"其他AI而已。其中有爭議的,都是利益問題。
---
其他大型語言模型一開始也是用人類已知的資料去訓練及調教AI,而這些已知的東西是人類的作品(比如語言、教科書、圖片、音樂等,人類作品的成本更高,當時一堆創作者跳出來說白嫖),對於一些敏感的東西還會直接外包第三世界國家的人類工讀生做標記,等同影片中說講Teacher AI的角色(人腦也是黑盒子),Student AI再依自己的架構長出自己的黑盒子來產出判斷機率逼近於人類知識輸出,一樣都是影片所說的Distillation。
如果先出的AI公司說後出的AI公司不能對前者Distillation,那簡直是打臉自己。
看完只有一個想法,地溝油就是提煉食用油的一種方法。有爭議的,都是利益問題。如果賣食用油的公司說地溝油公司不能提取食用油,那簡直是打臉自己?
满满的干货,谢谢楼主的讲解。听完后我想把直接从数据集上训练比喻为自学,把蒸馏比喻为跟着老师学,是不是更形象一些
這形象很差。你這是在罵老師lol
偷
这条视频流量爆了啊!恭喜姐夫的油管频道在新年里越来越好了❤🎉
大模型distrillation蒸馏,只是省了数据人工输入而已。
比如 Q:什么叫汽车? A:由动力驱动,具有3个或以上车轮的非轨道承载的车辆。
这个数据,要不自己叮铃咣地敲键盘 输入 QA 喂给大模型;
要不就连接另外一个大模型系统,发个它Q,接收A,把QA喂给自己大模型。。。
而这QA,都是现成的共享知识,不是所谓谁的,所以不存在抄袭一说。那些别有用心的指责都是 腹黑而已。有本事拿出 证据说话。
抄襲愛因斯坦相對論,只是省了數據人工輸入而已...
講的很棒,希望每一項目能細講及擧例子,可否也介紹一些書籍
技术问题解释得非常清楚,但外界对Deepseek的质疑不在技术层面,概括起来有两点:第一点,如果它是一个自主开发的 teacher AI,那它宣称的只用2000个 lower performance GPU 就能完成这样的计算量是不可能的,因此对硬件的成本和使用可能有所瞒报。第二点,如果是采用了diatillation 方法利用其他 AI 模型的数据完成 Deepseek AI 的训练(student AI 模式),在技术上没有问题,但会引发知识产权盗窃的纠纷。因为distillation 其他公司的 knowledge 做商业使用,必须取得原创公司的授权许可,否则就涉嫌侵权,特别是用来创造和原创公司竞争的产品。所以,Deepseek 的高调发布是福是祸,还得让子弹再飞一会儿。目前美国政府已介入调查。如果是前者,可能会引发对中国芯片的进一步制裁。如果是后者,不外乎为中美关系雪上加霜。
技術問題沒解釋清楚,例如沒有解釋外界對DeepSick的技術層面質疑
另一个“华为”而已😂
@@karlshomekitchen啥质疑? chat的科学家都出来说了他们的技术领先,不会是民科的质疑吧?
h800不是低端显卡😂了解后再喷,本身openai不是re train的,了解了rl再喷
@@galois6796 是你在民科理解。啥質疑你都不知道就知道民科。他們只是說如果真是這樣而已。如果chat的科學家說他們沒領先,你就會說chat是民科吧?
这是你的视频中做的最好的一个,讲的非常清楚。
感谢感谢,我感觉自己蒸馏了一下老师的知识😂
活学活用了,属于是😂
但你不能把它用出来,否则就是盗窃🎄◟(˶> ᎑
你的老师蒸馏了他的老师的知识。。最终版权归爱因斯坦图灵所有,看来要把他俩挖出来了。。
你可以開視頻了,把你老師説的蒸餾了基本再說一遍,注意別用白板,有能力的要多加點搞笑動畫配音。對了,要用天才數學少女那種黑板。恭喜你創新了,你化的備課時間肯定比你老師遙遙領先
open ai的模型是在从原始数据上跑出的。而蒸馏的前提是有teacher ai,没有teacher ai这种蒸馏提升效率的方式就不成立,就只能自己从原始数据上跑出来,自己从原始数据跑对于人员的安排,对于每天工作内容的安排,和拿到别人已经有的模型,然后去优化架构的人员安排是完全不同的,招的人都不同。这种什么浮点啥啥的,就是cs大一的水平。open ai的人力安排是在探索大模型这个技术的技术边界是在哪里,而deep seek这种工作,是基于别人已经探索出来的边界,去做架构优化,假如别人的探索出来的边界是错的,那他也跟着错。一个是在定义什么是问题,一个是在别人定义完问题后去优化资源。称不上是超越,在不知道什么是问题的情况下发现问题才是科学进步的第一驱动力。但是cs大一的知识都需要科普,那可能是get不到这一层的。
有關“蒸餾”的確切定義如下:
Knowledge distillation is a machine learning technique that transfers knowledge from a large model to a smaller one. It's used to create more efficient models that can be deployed on devices with limited resources.
How it works:
1. A large, pre-trained model, called the "teacher model," is trained.
2. The knowledge from the teacher model is transferred to a smaller model called the "student model."
3. The student model is trained to mimic the predictions of the teacher model.
才不管那麼多,最重要是免費和开源。
白嫖資本家,嘿嘿嘿!
那是,免費和開源的地溝油不香嗎?
Thank you! Jeff! Your explanation is clear and plain language for us to understand. Good job! Appreciated!
请问,蒸馏过程需要给出老师类似的答案,现在deepseek给出和GPT非常不一样的答案,这个蒸馏如何蒸的?
這個過程很符合華人教育特色,先知道答案,然後再來想計算過程
是的
你说的是海外那帮华裔😊
机器学习反向传播算法都是这样的啊,发明这个算法的人 John Hopfield 还得诺奖了,他并不是华人
@@王爱国-y9n 國内的華裔才不想計算過程。知道了答案還不趕緊交卷拿第一?
全世界基礎學校授課的方式,基本上都是教課本上的知識,也就是通才教育,不是華人才這麼教的
蒸馏技术是大模型领域的重要研究方向,具有广泛的应用价值。DeepSeek如果被指控,需要从技术和法律角度进行澄清。行业内的竞争和合作应建立在尊重知识产权和推动技术创新的基础上。希望AI领域能够通过良性竞争和合作,共同推动技术进步
听起来像为了应付托福考试,不去好好学英语,而是去上新东方刷大量题。
老范早在DS这几天热闹之前好几个星期就出了一期节目, 也点出了你说的这个意思。我觉得有点类似那个九章计算机, 或者Tesla与东大电动车自动驾驶的差别, 就是虽然实用, 但不是根本通用。
收割,優化
鉴定完毕这个SB评论只是看了一眼标题,没有完全看完视频,或者说根本看不懂
@@haochide6500 我惡補了幾天,覺得更像老范說過的那個天才數學少女lol
那這樣比喻不知道正確? 中國孔明(老子兵少更擅長兵法,以小博大) vs 美國司馬懿(老子兵多,硬實力打爆你)
在老師講課到2/3時,看見和聽到老師呼吸換氣時出現明顯的心血管有嚴重堵塞問題,中閒還有斷斷續續的講述情況,這種情況屬於短暫缺氧,趕緊去看心臟科!很有可能需要裝支架..
前面几句话感觉你挺关心老师的,后面非要说装一个支架吓死老师了🤣
趕緊問問DeepSick
谢谢讲解,受益啦!现代生活中有多少技术不是“蒸馏”步步升高的,按照美国人对deepseek的指责意思,特斯拉、福特、丰田都应该告发中国汽车业要求赔偿。
你明顯沒有聽懂什麽是蒸餾。再説,他們不告的一個原因是大國法院未必公正,而且得罪了你們會被戰狼抵制而已
@@karlshomekitchen你显然也没听懂。而且openai的真着急,大可以在美国法院起诉,试试看呗
@@高贵的信仰 哈,轉移話題樂。“也”沒聽懂?我聽了幾句就沒聽下去,爲啥?覺得是個你這種文科生講的,不用再聼了
这层里的台湾人可真无耻,trump说了台积电偷了美国的技术才能发展的,也难怪,张忠谋当初就是从德州仪器里偷了不少技术出来,怎么一群都没去过美国的中国人用了人家api付费调取了一些数据就成偷了?难怪湾仔盛产诈骗犯。😂😂😂
蒸餾要有開源模型,或者你們要有完全相同的數據庫,這兩個前提都沒有,要咋蒸
我天天去大学的其他课程的公开大课和允许去听课的教室去听课,关键我还学会了,听懂了,最后拿到好几个专业的学历,比我去听课的单科老师的学历还多。。难道我就是偷老师的知识么?只要让公开去听的课,我学会靠的是我,以及我的学习能力和理解能力,最好拿到啦毕业证有问题么?超过了老师不被允许么?
同學,以你学习能力和理解能力,還是趕緊多學習少妄談這種話題。面試要這麽回答估計夠嗆
分了几个专家模块,Open AI和Meta的工程师想不到吗?
想得到,但是多專家模型在回答問題是更加耗電
想到啊,很久的技术了,另外了GPT-4也许也是moe模型,deepseek还有很多优化技巧,另外meta的llama3是为了验证单体模型可以训练的极限而没有用moe架构
他们想得到,说不定还做了,但是为了钱,他们选择不公开,让其他的研究人员面对黑箱
chatgpt4o也是moe的,只不过他们没说。
NV, OpenAI / Meta, Wallstreet都有一個共同利益
效率不是他們的優先事項
deepseek蒸馏需要给出和GPT非常接近的结果。但是现在deepseek给出的结果和GPT差距比较大,请问这个蒸馏到底是不是蒸错对象了?
你确定你用过deepseek??在精选的材料,得出材料以外的结论???推理的逻辑步骤和对提问者问题的剖析和发散性推测,一步一步的步骤都有列出来。用你的资料,然后通过不一样的思考方式,得出差异的结论??你确定???
看到他說老師給你答案,你再蒸餾他給你的的答案
其實再怎麼推理,你也只能選他本來就錯的答案,就知道他說的根本是錯誤的知識.....
他还说的头头是道。。真的震碎我三观。
你可以分別問:王這個字筆劃有幾橫幾豎,結果ds回答是錯的(兩橫兩豎);chatgpt回答正確
@@JasonCheng88 所以你的意思是deepseed从chatGPT的答案里面,精算出一个错误的答案,来维护这个视频主的论点???你们是开心教育读多了,逻辑都崩了????
@@JasonCheng88 而且我真的无聊,信了你的鬼话,去问了一下,没有错。。黑得漂亮。
This the best explanation I've ever came across. Thank you so much!
其实我觉得DeepSeek的影响在于这种低成本开发是不是可持续的方法,尤其是达到第一以后还能不能继续维持这种成本。如果可以,那就是颠覆业界后续模型的开发,反之则是一个低成本替代而已。
前期学习到了一定阶段就可以自己学习了。特别是现在的推理模型,如果你以为真的只能蒸馏来提高自己的能力,那就相对于你认为学生永远超不过老师一样可笑。
那這樣比喻不知道正確? 中國孔明(老子兵少更擅長兵法,以小博大) vs 美國司馬懿(老子兵多,硬實力打爆你)
@ 当然可以自主学习,我的问题是自主学习还能维持这种低成本吗。 总的来看,提到的多种DS独有技术确实能很大的提高性能,唯一的问题蒸馏在总体节约的成本中占了多少比例。
缺少持续创新,变向造轮子,应用型选手。
@ 自主学习在成本上和蒸馏数据没有区别,人工标注数据的才比较费钱,openai是用欠发达地区的人工来完成人工标注的这降低了一些费用。、openai也蒸馏数据,基本ai大模型都有在蒸馏数据。
最近deepthink的成本问题对未来的ai软硬件投资领域带来了很大的冲击。其中主要的疑问点是,1/20的训练成本是否可信。如果采用视频中的方式,确实可以大量减少训练数量。但这样操作所得出的训练成本降低的结论,是否有意义?我认为可以通过这种方式缩小模型,降低使用的成本,但从0到1来看,训练成本没有降低。这种训练无法脱离原始训练的资源投入而存在。
如果大家想了解更准确和全面的技术细节的话推荐科技浪和最佳拍档。他们的的讲解从技术上来说可能更准确,姐夫的讲解方式更通俗,更集中
很像逆向工程,但能否有探索新知识的能力呢?
有沒有蒸馏OpenAI在沒看到實據前大家都在瞎說, 今天我就問了openai, gemini跟deepseek同樣一個問題 "假設達文西在義大利有後代, 那麼今天去羅馬旅遊遇到達文西後代的機率有多少?", 我先問deepseek, 因為怕它做弊先問了其它ai, 再問openai , gemini, 回答結果是DS最老實的做了還不錯的推理假設, openai, gemini出乎我意外的是沒根據我的假設做出滿意的推理,反而講了一堆其實是推不出來的結論, 有興趣的人可以去試試, 由此我是不太相信蒸馏說法
蒸馏所获得不是具体结果,而是通过蒸馏,不断优化思维过程
@@semipunk 你这说法更可笑。因为如果你说的为真 那么更说明deepseek模型推理更强。就像学生仅靠老师的解题思路就能做出来比老师更好的结果。
把DS的推理假設搬上了大家開開眼呢?
deepseek 可能就是針對“考試”做出來的ai,針對世界上大家愛問的統整出來的模型,針對目前的考核分數調出來的ai,速度快内容精準,僅此而已;
但普通人其實問來問去就那些,如果放在普信大衆的手機裏真的很夠了。
蒸馏是瞧得起GPT,別給臉不要臉。許多網友都實測過了,確實在很多方面的表現是超越GPT的。而且DeepSeek 是開源的,有種openAI也開源、證明不是抄襲deepseek的。等著瞧吧,未來DeepSeek被禁止蒸餾GPT後,其表現也不會差到哪去的,何況還是免費的。
當然囉,書不用念,只要會抄人家答案,人人都可以是優等生!這就是你們中國傻逼的邏輯了!
具體開了什麽源?
@@karlshomekitchen 你何不去問老美,DeepSeek到底是開了甚麼源,可以讓老美在極短時間就捉到他是蒸餾的呢?
反串太假
所言甚是
春节快乐!希望老师细细再讲!
讲解清晰,谢谢博主。
认真听了两遍,很喜欢李老师做这种硬核一些的讲解,期待您更多类似的内容👍
讚,我是我目前看到過的最詳盡的解說
There is an old saying in China: A thief who steals from thieves is not called a petty thief, but a chivalrous bandit.
謝謝老師,講得深入淺出,對我了解DeepSeep的技術關鍵太有幫助。🙏😁
其實整件事的爭議在於DS是否使用 Openai 當 Teacher Model,假如真使用了就是違法,要避免最好使用開源的模型 ex. LLaMA,避免商業模型的智慧財產權與相關使用條款。
DS就是背鍋的,她違約後開源,替阿里開路。😊
openai也是通过别的ai做蒸馏,所有ai都是要蒸馏的
我觉得没学openAI,谁能证明学了?谁质疑谁举证
@@ningwang-mj6ri
如果你從大海撈魚帶回魚塭養著,我能撈嗎?😊
@@bbcn426 任何ai都会蒸馏。openai当年骗别人是开源项目,从网上偷了训练素材,而蒸馏并没有直接偷训练素材
你学了别人总结好的知识,但脑子还是自己的
1万个实际问题需要回答。你用1千个问题答案蒸馏,然后你得出了个简单的逻辑,用这个简单逻辑回答另外9千个问题比原始复杂逻辑的老师都好,你信吗?
@@atehe9589 没学过物理定律?纷繁复杂的现象背后是,最简单的方程
@@atehe9589 当然是可能的啊,难道爱因斯坦没有他的老师聪明?
OpenAI,只能自己再進行幾次蒸馏來純化模型架構及結論及縮短反應時間,以擺脫 deepseek的版本
讲得非常好!讲得很清楚了!!👍👍
谢谢,说得已经很清楚了 。
謝謝!
问题:新的AI继续蒸馏DeepSeek,能出更优秀的新产品吗?
肯定能呀,deepseek不就蒸出来比GPT好吗?再用deepseek把GPT蒸一下,GPT就比deepseek好了。
@@atehe9589 真这么简单的话,美股不会大跌!
@@atehe9589 不是简单的蒸馏,首先要有创新的优化结构,然后用蒸馏法训练,提高效率。
@@heping5384感觉整个评论区只有你懂,剩下都是鸡同鸭讲各说各话
@@hahWow-tz1zp 那麽你也是不懂的?一個不懂的如何判斷只有他最懂。不懂lol
gpt为啥不蒸留自己
这次李老师真是我老师了
至于知识蒸馏,其实所有的大模型都是知识蒸馏,而DeepSeek所做的便是知识蒸馏,即使蒸馏的可能是其他大模型的训练数据。泛化的知识可不是专利,无法要求知识的学习者遵循专利守则。专利保护的是发明创造,而不是知识本身。这同样也是其他大模型能够避免训练数据被追责的核心基础之一。
你在偷換概念
怪不得这个DS有很多敏感信息😂用简单的一刀切屏蔽的,但还是会显示几秒。
這就是強國特式
@@CCcc-rn8qd 你問問看chatgpt關於Israel,美國支持種族滅絕,以及土著印第安人之類的課題先,看看chatgpt會不會正面回答你。無聊無腦黑果然是台灣人特色。
@@CCcc-rn8qd麻烦殖人不要用
这和怪不得有什么关系。你要想看,自己搞个本地部署就行了
@@CCcc-rn8qd chatgpt一樣有很多課題是不予回應的,這很特別嗎?
簡單的說, 把其大他模型當做simulation tool ( 模擬器) , 恊助產生模擬數拈進行訓練自己的 模型。真聰明的做法,把其他大模型當做其多層次學習的一層。
你是文科生吗?根本就没听懂
这是技术进化的一种很自然的方式
說實在,其實是student大模型與teacher大模型的較量。如果大模型結構節點參數組合不足以表達訓練數據包中所有向量,訓練不能穩定(收斂),不論訓練數據包來自蒸餾與否。
你好gemini pro你是谁 ?gemini pro :我是百度文心大模型,一个由百度公司开发的大型语言模型
指责别人,先说清楚自己的数据来自那里吧
我問了gemini flash,回應它是谷歌的AI,不是文心
@@JasonCheng88 你啥时问的? 这都过去一年,你才想起来问,会不会太晚了
你用支語提問是這樣的。
“蒸馏”的过程算不算在Deep seek 的模型训练时间内呢?
如果他们诋毁成功了,那文心一言为可以起诉Gemini,如果有相同条款
笑死我了你这个笑话 他们又要说前提了文心怎么来的了哈哈哈哈哈 你就准备进入无限套娃阶段吧
@@selelngth 文心一言和Gemini做的是红烧排骨,OPENAI做的土豆牛肉,但是DEEPSEEK 的土豆牛肉更好吃,每家公司都是辛知杜明,如果 deepseek 被干,难免AI界不血雨腥风,这不利于广大吃馆子的老百姓,一句话因为OPENAI后面的大股东微软非常不爽,因为都在品别人的菜研究自己的厨艺,但是微软投入大啊
distillation 应该能够节省训练时间,很难提高准确度,因为670B个参数,很难确定哪些个参数对哪个具体问题起作用
是用来减少模型规模,一般是用在把巨型模型的知识蒸馏到小的模型中,另外deepseek r1技术报告中提到的蒸馏是把用强化学习后训练的deepseek v3模型蒸馏到比较小的千问和llama 7b模型中
从商业角度上讲,DS使用open ai的数据进行训练,那一定违背商业规定,不能说是完全的偷窃,但是有很大的法律风险。
说参考了openAI是典型的造谣,deepseek使用ptx(英伟达计算卡的汇编语言)来构建模型和算法,这不是高级语言,是机器语言编码,是全新的模型和算法。这与openAI完全不一样。所以它能极致的应用硬件性能。虚伪的openAI使用互联网数据训练而不付出任何代价,现在还造谣deepseek盗用他们的数据训练,这种典型的造谣,真的是让大家看到了openAI的无耻。
爆料open AI 侵权的爆料人已经被自杀了
你懂条毛。openai训练数据又是从那里来。 不都爬的全网吗。人家就没copyright啊
从商业角度上讲,你卖AI服务,只要别人付钱买了你的标价服务,只要不违法你管不到别人拿去做什么,如果不甘心别人借鉴,你可以卖高价或者干脆不卖就好了,OpenAI自己还被内部“吹哨人”揭露“白嫖”“蒸溜”出版商及媒体的文章和知识来盈利,行为更加恶劣。况且那么好的事情OpenAI为什么不自己蒸溜自己?
是这样的,用户协议里当然是有这个限制的。
非常感谢你的讲解,浅显易懂。能否再解释一下今天META小扎说的,要增加“推理”的内容是什么意思?是不是因此减少用nvda的高端芯片?
刚上线的时候问了deepseek, what is your name? 回答是Claude😂, 今天已经改成Deepseek了。
应该是几个闭源模型蒸馏的技术得到的
都一样,gemini曾经回答自己是百度文心一言,互联网就像神经网络,上面任何节点都会被某一节点学习到,
反过来说,如果一个AI没有从其他AI中训练推理出有效果的答案,证明这个AI是不完善的,因为其他AI就是重点学习和模仿对象。
当初Gemini-Pro曾经被问model name回答是文心一言,创始人是李彦宏。 原因是Gemini-Pro的中文语料用的文心的
这都未必跟蒸馏有什么关系,类似的语料在网上到处都是,学习时不小心就学到了。类似以前gemini说自己是百度文心一言,其实大家也就笑笑,没人真跟openAI一样不要脸去指责别人抄袭。
DS的技术创新里不包括RL?
缅甸的事没人提了吧,他们的目的达到了
波音从天上掉下来的事情没人提了吧。
台湾当局在高速暗杀反诈骗志愿者还有人知道吗
台湾在高速上暗杀反诈志愿者的事有人提吗
你太聪明了小红书中美对账没人提了还有加州大火等等没人提他们目的达到了。
关键是deepseek公司真正使用了多少人力和物力,达到现有成就?
Deepseek是新时代天才数学少女姜萍的翻版。
主语换成你刚好
人家都开源了,居然没证据说怀疑,哈哈😄
@@大盘大盘土鸡 DeepSeek 并不是直接取用OpenAI 的原始数据库,而是直接取用ChatGPT回答用户的答案。例如,如果你问ChatGPT 一加一等于多少,它会从它的数据库先取第一个”1”, 再取一个”+”, 再取第二个”1”, 再取一个”=“, 然后根据小学数学书教的方法计算出结果是”2”. 最后它给出用户答案是 1+1 = 2。有一个网站 ShareGPT专门收集ChatGPT回答用户的答案,它是公开的。DeepSeek 就是从这个网站还有其它来来源收集ChatGPT答案作为自己的数据库来训练。如果你问它一加一等于多少,它不会跟你算,而是直接使用ChatGPT已经算好了的1+1 =2 回答用户。它本身并不需要象ChatGPT那样计算,而是直接用它的计算结果。
为什么ChatGPT是teacher,deepseek是student。ChatGPT是说deepkeek的结构用了他的蒸馏技术。博主是胡说八道。
李老师真是你老师👍❤
讲的很清楚,很大白话了,谢谢及时出这个视频
講的不錯,奇怪的是open ai 自己為什麼不做。ds 在某些地方準確率還不錯
小模型可以,大模型用这种方式?靠猜完成自己的模型?靠排列组合凑答案的时间是天文数字。
很奇怪的事,有些人測試dp,連小學生會的問題都答錯😏
@1229vv 我要ds gpt claude 產生GED 分配的程式碼,只有DS是對的,另外gpt 錯最多。當然我也只說某方面,gpt 在過去的兩年用最多。DS的自問自答推理很有趣。
他要以此赚钱啊。。
但是ds开源了等于断了他财路。😂
@@tompi2277 總之已經進入調查了是驢是馬遛了就知道😏
在替人洗地? 結論是你在使用別人的close source AI,例如 Chatgpt ,是要簽署使用協議的,這種商業性的蒸餾行為是違反使用協議 user agreement 的。
deepseek开源的,不是商业行为,deepseek也鼓励任何对它进行真溜模仿😂😂😂😂