有推理能力,但好像还差了点什么。我的理解是它对逻辑的认识只通过训练数据,生成的是百分比,但对于数学这样的,完全建立在逻辑上的,全是百分百,它好像缺了一个理解这个是完全逻辑的,只有逻辑的问题,到处都是百分百答案的的东西。o1虽然也下降了,你没给数据,但应该远高于其他,所以这个问题open ai 应该有更好的解决方法。
即使大模型不会推理,只是把它当作一个更高级的数据库,现阶段也够了,还远未达到其能力的上限。学过transformer结构的人都知道里面的qvk和数据库的查询很像,只是现在数据本身都存成模型的权重了。即使不用AI、推理这些很fancy的词,仅仅只是说做了一个很好用的数据库,不也很好吗?现在真正的问题还是模型的幻觉问题,如果生成的回答足够靠谱,who care is it REAL intelligence or not?
目前大模型确实是一种复杂匹配算法。就是通过海量参数来匹配。本质是分析和归纳。而推理应该是基于这些结果的演算。它应该基于事实,也要基于逻辑。问题是逻辑如何产生。可能还有另外一种模型。
我記得大概是剛有 GPT4 時,那時候我教人寫 prompt 的第一課就是:
你必須在使用過程中牢牢記著,它只是看起來懂英文,其實它根本不懂自己說的是「語言」,更不要說它理解語言背後的知識。你只是在用一個有著全新使用邏輯的計算器。
這一課到現在也是一樣。
@@csonic 人類所胃語言,也是神經細胞裡面的活動,突觸間的接觸,而已?,別把人類想得有多高級,其實Ai 不須要明白人類明白的,出來是人類想要的就足夠了
人家Hinton訪談都說了LLM必定是擁有了某程度的理解和推理能力才能在巨大的網絡中把你想要的答案給你,原因是它必須先了解你的問題,才能把你想要的東西給你,怎麼還會有人說LLM「不懂」?
@@ShawshankLam 懂得找答案(know the answer)跟懂得語言背後的知識(understand the knowledge)是兩回事。
學生答對題目不等於忚真的學會,也有可能他只是範題做得足夠多、足夠熟練。
@@vincentlin5760 現在談論的正是生成式 AI 有什麼做得到,有什麼做不到。當我們能夠充分了解它能做的事和不能做的事,我們才能更好的應用它、發展它。
喔,原來你理解語言,嗯嗯。你的繁體中文是透過理解來學習的嗎?你打這段留言十,運用了多少理解?
人的推理能力和目前的 gpt 算法显然还有本质区别,很多东西人看一遍就明白了 所以有醍醐灌顶这个成语,有 套公式这个解题方法。gpt 现在显然是不具备这种能力的
如果在算法层面禁止大模型去搜索题库,完全依靠小步骤来推理,把语言和逻辑层面完全分开,也许能更真实测试其推理能力吧?不过依靠搜索能节省大量算力,要真正提高还是需要算力的突破
LLM就是pattern match,人類的推理就是把pattern match泛化的所有問題的解決方案上,人類很多所謂常識問題幾乎都是先驗問題,現在只是o1太強且只專注在stem方面的問題,所以對一般人的感官而言會不符合問題深淺的常態分佈,我認為這要一段時間才能解決,但預期orion出來時應該就能直接跨越一定的使用障礙與疑慮,因為agentic flow一定會在現實世界得到一定程度的驗證回饋,這回非常有助於RL的落地
很多研究都透過類似CoT的方法來完成推理任務,但我認為CoT基本上是將問題拆解成細項,提高模式匹配的成功率,並不能真正的認為是推理。
@@leeyu6130 如果拆成无限细粒度就像极限思想推导出微积分一样 就产生推理这种质变了 大语言模型的智能涌现也是这样达到了一个阈值
小孩没有语言能力的时候,已具备推理能力,也就是说推理不依赖于语言,试图通过语言学习来解决推理能力,是不是从根本上错了。
學習"邏輯推理"感覺上比較需要的是"實作經驗",不要說小孩了,就連動物也會根據自己的經驗來推理判斷該怎麼作,看來"試作試錯"來訓練邏輯推理要比光用語言學習來的快的多。🤔
@@Sakura-Shizuka你的做法就是以前Google的贴标签加人工筛选的“人工”智能。可惜,世界变化太快,既来不及贴标签,又无法给电脑一只“全视之眼”,更来不及为这些数据梳理逻辑,结果被大语言模型弯道超车😂
有些没有语言的动物也有逻辑能力吧
是嗎?不就是等於100趴與小於100趴的差異吧,呵。懂得就懂。
如何说小孩已经有推理能力?
同样的道理,中国学生花大量时间学习背诵做题,可以说是经过大语言训练,然而始终与诺奖无缘,现在似乎已经找到答案,智慧不是来自于大量训练。
@@盛峰-i8p 煞笔,我对你妈说我爱你,你妈展开双腿
這是“阿沒力卡帝國”教你的嗎?!
@ctliu-x4h 这是“拆拿帝国”教我的
我觉得空间搜索和导航还是很有希望的,比如去超市购物、自动巡逻监控或者通过图像记忆房间中物品的位置和人的行为。建图同时生成压缩的拓扑图和语义词典。
因為那些大部分是記憶而非推理。這些正好是它們的優勢區間
自动驾驶😂
非常重要的一篇论文。之前的类似论文也得出同样的结论,但可能没有这篇的影响力大。
现在的AI模型很像银河系漫游指南那种AI,想知道宇宙的真相需要把宇宙喂给它。这种模型很适合做助手,却永远不会明白世间为何物,不会推理最终只会是人类文明的影子。
大模型肯定具有推理能力,这个毋庸置疑,问题只是现代意义上的大模型到现在还不到两岁,本质上还只在初级阶段。事实上就算是这篇苹果的论文里面,o1-preview在面对未曾见过的问题时性能下降的幅度相对其他Shallow Reasoning LLM大幅降低就已经被学界很多人视为是大模型具备真正推理能力的潜在证据之一。作为一个在业界混着的LLM研究人员,我对LLM推理能力的未来没有太大的担忧,业内真正的担忧永远只在如何更快的提升模型性能以便在和同行的竞争中胜出。
LLM 的推理能力是基於過去學習數據, 只要數據不同就錯了,這表明LLM的推理能力很弱.. 所以才需要靠prompt
@@huangcc72 现在各大大模型,基本上动用了人类社会一切可以上网的数据了,,想进一步,,他就要更大至少一个级别的数据量,现在没有,也不是没有,可以数据生成,让AI生成数据去喂自己,,这就造成了数据污染,事实上,现在训练数据已经被污染的,而这个趋势还在加速中
最后的最后,,现有的大模型最后只能停留在现有水平,无法再进一步,只是能扩大一些辅助应用场景,推理?有推理要这么大的数据训练吗?睁眼说瞎话
LLM算是不錯了,至少『看起來」,LLM至少能夠懂人類語言,方便人類使用AI,只要能再開發出真正提供邏輯推論能力的AI,並且能夠與LLM溝通,讓人類簡單使用具有推理能力的AI
更簡單講,當你輸入的資訊過少,LLM在統計上就較難找出有壓倒性勝出的選項(例如輸出選項中A與B的機率分別是11%, 10%, 你讓LLM要怎麼選?),自然容易產生出錯或瞎掰,但當輸入資訊更多時輸出選項機率就更容易分出高低,因為LLM主要是靠統計學找出關聯性所進行的輸出
推理能够深入持续,必须基于对客观事物的抽象化。这是人类思考的基础。所有外部世界的信息,都被抽象化成一个个基本概念存于大脑中,根据各自的约束条件进行类比,逻辑推理,过程中会产生新的更高级的抽象概念,然后一步一步深入。这是人类的智能产生的“思考”, 总之,人类对外部世界的理解是建立在抽象化的基础上。而人工智能是记忆,大量记忆各种事物的细节描述,然后得出最符合统计规律的结论。这个思考过程本质上是不可持续的,思考的深度是有限的,所以表现出的推理能力,更多是表象的,不是人类层次的推理。
具体到论文中提到的,人类大脑可以抽象化,把问题简单化,概念化,剔除不必要信息的干扰。AI 还做不到这些。
LLM主要是靠統計學找出關聯性所進行的輸出,當然不具有邏輯推論能力,但LLM能夠非常好的把人類累積的知識用很有效率的方式進行輸出,大大降低人類去學習多種領域的知識的時間,幫助真正具有邏輯推論能力的人類,更有效率產出有創造性的輸出,只是確實會讓很多人失業(例如以往科學研究領域都需要雇用一堆助理去讀論文,回答研究員關心的問題)
問題是LLM 關聯的結果常出錯或瞎掰.. 我已經遇過很多次.. 問他A 是甚麼造成的, 他回B, C, D.. 問他B, C, D為什麼會造成A, 他回答不出來, 然後就說他前面答錯了..
@@huangcc72 有問題的人其實是你,不是LLM的問題,更簡單講,當你輸入的資訊過少,LLM在統計上就較難找出有壓倒性勝出的選項(例如輸出選項中A與B的機率分別是11%, 10%, 你讓LLM要怎麼選?),自然容易產生出錯或瞎掰,但當輸入資訊更多時輸出選項機率就更容易分出高低,因為LLM主要是靠統計學找出關聯性所進行的輸出,這有點像是座新藥試驗,都是針對已拿到藥證的藥物做比較,只要能證明療效、安全性較優,就能拿藥證,而通過標準則是統計學上是否達顯著意義,而非只要好一點點就可以,還必須是壓倒性的好,否則可能只是運氣好。總之,你自己不會用,若因此論斷LLM沒什麼,那你遲早會被取代,因為會用LLM的人非常多,只是你還不知道而已
@@AlertImDK 你在胡扯甚麼, 你是不是連我說的問題都沒看清楚, 我也知道LLM是靠機率, 機率跟推理又不一樣, 相信LLM 能推理的才會被取代..
@@huangcc72 你在胡扯甚麼, 你是不是連我說的都沒看清楚:只要你輸入的資訊足夠多,LLM就是能靠機率/統計學來實現推理。對LLM來說,機率跟推理是一樣。不相信LLM 能推理的才會被取代..😆😆😆😆
至於怎麼做到,我就不免費教學,你自己好好去想一想,做不到是你的問題
@@AlertImDK 笑死, 還在胡扯要輸入足夠的資訊, 9.8 跟 9.11 比大小是要輸入甚麼資訊啦.. 我看你連推理是甚麼意思都不知道, 大概從小就只會背答案, LLM有其侷限, 你就繼續相信LLM所背的答案.. 因為你的水準也就只有這般..
我是小时候特别会做应用题,主观上其实靠在脑子里面想象动画,所以你的模式匹配后面接一个蒙特卡罗模拟就好了。
老師:考試的題目都是作業上的,怎麼換個數字你們就不會了呢?
從這點來看,當前LLM不愧是基於神經語言程式學的,跟人腦可真像...
- System 1 - 快速推理
- System 1.5 - 引导式思维链
- System 2 - 通过验证过程信息加强的深度、刻意推理,使用和获取相关的思维框架和工具,包括设计和选择选项
对。现在的“语言模型”不属于智能范畴,只是搜索和节选功能的叠加。文字和语言逻辑需要建立人类语言的数字化逻辑以及与自然科学的接口,进而形成一种推理的逻辑式表达。那样人工智慧才能真正地和人类交互作用……
苹果这篇论文中的例子o1或01mini都答对了。苹果论文的最大问题是不具有复现性。
Reference?
@@fmka-kg5rz 你自己用O1mini测一下下面苹果论文中的问题:
奥利弗周五摘了44个奇异果,周六摘了58个奇异果。周日,他摘的奇异果是周五的两倍,其中5个比平均小。奥利弗一共摘了多少个奇异果?
原本要自己去啃這篇論文的 非常感謝統整
無論如何,我對現狀還是蠻滿足的。現在的AI已經可以讓我做到很多以前做不到,或者需要花大量精力的東西。
@@nil-desperandum 我是一个 完全门外汉 瞎评论,目前甚至将来AI取得的成就, 考虑到其 无比巨大的投入, 最终 是否能 比 把 这些投入直接 花在 培养 具有 真正 推理能力的 人 身上 性价比 更高呢?…
數學推理畢竟不是因果推理,所以無法推理現實規律,只能推理數值變化方式的不同形式,但至少現在的人工智慧能夠分辨語言了,在進一步增加關聯比較就能推理了
基本解决了我对AI的迷思, 性能取决于数据集,本质只是更强大的搜索引擎,但仅仅通过模式匹配就能模拟出如此拟人的表现,通过图灵测试,还是很让人费解如何做到。
没有推理能力的AI能否称之为真正的人工智能?估计每个人有自己的答案
我是觉得大模型是代表了我们人类思考的部分过程的。它和完整的思考不一样,但是它点亮了其中的一部分。
我昨天作为一个特效师,坐在办公室想领导临时给我的写剧本的任务😂
实际上我也只能是在我看过的,有印象的剧情里东凑凑西拼拼看看效果,想了半天也没憋出一个字来。这个过程就很想扩散算法的ai画图,通过各种消除法,提示词找到了方向,最后是用大模型成功开出了头,生成了大纲,今天用继续大模型不断丰富了细节。但是这时大模型的极限就出来了,它不能真正理解我的细致的需求,无论是o1,4oc,grok还是Claude,都会在我要求他们按照我的逻辑继续细化的时候出现类似过拟合感觉的跑偏。
大模型不是完整的思考,但确实在部分过程中比人类高效太多。
不能说完全没有推理能力, 只能说大模型更依赖通过直觉或者模式匹配回答问题,一方面这样更省token,另一方面,没多少人会把自己的思维过程发到网上。
哈哈哈哈
不是這樣, 大模型的推理能力很弱, 常常都還會自打臉.. 問他A 是甚麼造成的, 他回B, C, D.. 問他B, C, D為什麼會造成A, 他回答不出來, 然後就說他前面答錯了..
人首先是个体、核心逻辑就三个、生存、复制、扩张、而ai属于逆向人的工程、而且还起步阶段、ai的趋势是融入人类的群体管理学、它负责出方案、人决策。
现在的大语言模型一直都是在做搜索的工作,大语言模型就是一个压缩的数据库!其实,搜索也可以看成是一种推理,只不过这个推理是取概率最大值的结果作为推理结果。我们可以向大语言模型注入边界限定,依赖限定,还有数学操作符规则来让大语言模型具备数学推理能力!
这相当于,输入给大模型的数据是绝对精准、高质量、没有参杂无用信息的提示词,而且必须是大模型曾经训练过的数据,比如不能改变人名和称谓、不能改变玩具数量等等,这对大模型工程师也是很繁琐的事。对普通使用者更是灾难,稍不留神,就会得出错误的结果,实用性很不接地气啊。🤥🤥🤥
影片中提到「換成最難的題目時,正確率下降了10幾%」
但最終的總正確率是多少?
5:34 的圖片中可以看到,o1 在最困難的題目中平均獲得了80幾%的正確率,如果大模型純粹是一個背題目的邏輯,正確率至少得掉到50%左右(等於瞎猜)
這不就正好表明「大模型具有複雜的推理能力,但並不總是穩定」
同一張圖可以講很多故事,看要怎麼講而已
現在的只是o1-preview
@@zxwxz 但说的问题确实存在,有些时候我要反复告诫模型是a,而不是b,算法是这个等等,但仍然会被错误的识别。听完后有些共鸣,也许按照这条路走下去,不一定真能走到AGI,还需要优化,而优化的思路也许不只是基于现有的路线
故事也分好不好,你這個講法很容易被攻擊
@@frank_zhao 現在的問題很大程度上是資料清洗不乾淨的問題,比如9.11>9.9你即使問o1-preview 還是會錯,因為LLM不知道你是問數字還是日期,源頭落在pre-training階段,這段訓練成本很高且難以驗證,但之後套入agentic framework 會改善很多,因為他只要知道算數字調用計算機,寫程式要調用編譯器,嚴謹邏輯推理可用lean,使用工具就能解決問題了,人類也不是直接在腦內把所有問題解完,開始有紙筆之後就會用紙筆推導,有計算機後用計算機
上面可能對「推理」的定義有誤解,邏輯上的推理是對公設的堆疊、延伸、相乘與對消,當提到準確率的時候,意思就是那不是推理,而是射飛鏢
相當精采
结论很有道理
大语言模型的算法本来就没有逻辑推理啊?为什么这些人还在质疑大语言模型没有推理能力?学过AI的人都应该知道的。就实际应用来看,大语言模型写的代码每一步都是正确的,但结果是错的,可以证明这就是模式匹配而不是推理。要想AI能有逻辑推理能力必须重新设计神经算法。当然并不是说现在的大模型没用,其实非常有用,它把人类的知识都学到了,并获得一定的规律来压缩知识。让人类的知识极其便宜。但这跟推理能力没关系,目前的推理能力靠学习过的知识的规律总结。
什么是【逻辑推理】?
在你所谓的【逻辑推理】的过程中人脑是怎样运作的?不知道?不知道怎么判断AI是不是推理呢?
【神经算法】是什么东东?如果你指的是人工神经网络模型,那我向你保证至少30年内不会出现替代的算法。
【这跟推理能力没关系,目前的推理能力靠学习过的知识的规律总结】
首先这就是个病句。病句的原因就是本来逻辑就不通顺。
其次如果不靠学习过的知识来总结,那才不是推理。那叫猜想。【猜想】这个工作,对于人工神经网络来说,简直就是小儿科。
什么是推理?
又如何?人類本身的推理邏輯能力也是很遲才出現,所以人類自己的決定也很少透過嚴格的推理方式去達成!
反過來說,這樣更是好事,至少人類還有比AI更強的能力,意味着AI 一段長時間也能是人的助手而已!
大模型是能推理的,只不过能力还很弱。
在运用GPT3.5的时候,我就发现了不少它原来不知道的编程序的方式方法,它根据现有的知识匹配不出来。
但是我说,你为什么不向着XXXX的方向考虑一下呢?只给了非常微弱的提示,它就做出结果来了,其行为完全可以称为推理。
提示有多微弱呢?把这个提示说给人类时,只有优秀的工程师才能做出反应并且导出结果。
用三位数乘法及其子任务来测试模型的推理能力是很奇怪的。小学生真的能用推理来解决三位数乘法吗?除非天才吧。
小学生绝不是根据一位数乘法,发明了二位数乘法,进而发明多位数乘法。
老师灌输给小学生的内容是一位数乘法,二位数乘法,以及当位数增加时,竖式变化的规律。这个规律是死的,学来的,记住的,不是推理。
这个规律在发现的过程却确实是活的推理,这个推理需要了相当强的人脑能力(小学算术看起来虽然简单!),现在的模型做不到,很正常。
比如带着学生做热力学定律的实验,并让学生根据现象推理出热力学定律,听着很高大上吧? 要高中生才能做。然而其实这个推理的复杂程度,绝对是低于发现三位数乘法的。
感覺上 test time training 可以幫助解決這個問題
它原答案采样生成概率小,你加了引导,它跟那个领域相关知识匹配度就高了,输出那方面知识概率也高了😂本质还是没变,抽象化的模式匹配
@jackzhou357 人有什么区别吗?我不相信。
@@big-mouth-2023 其实最明显的是,越具体化数字化的东西,它越做不出来,它的训练样本不可能涵盖所有具体的知识(要极高的输出精度,而它输出的东西你可以看成人的第一反应,缺了类似脑内逻辑试错过程)
@@jackzhou357 数字化,量化的东西不是GPT的强项是因为研究团队没有在这方面给它足够的训练。
原因是没有使用价值。需要高精度数据的任务就应该由程序来完成,而不是经过训练的AI。
人脑奇妙无比,来一个九位数相乘,却根本干不过5块钱的计算器。
有的人经过大量的训练,可以在九位数乘法里战胜计算器,但来个20位数的乘法就再次傻眼。
AI的重要特征就是训练样本不用涵盖所有的知识。
人脑,即便是科学家的头脑更没有涵盖所有的知识。
我只能说换换题干很多时候就是不一定能做出来,上学时老师不就经常说这不一样的题吗?会下降只能说很正常
语言模型本身本质上还是 预测下一个token的概率,所以无法推理。但是 像GPT4这样的东西,不只是语言模型本身,而是一个系统。比如可以将一个问题翻译成代码,然后由其他的外部工具来执行这些代码。
首先吧,不妨思考一下,1+1=2這個"邏輯"概念,我們人類是如何得知的? 我們是經由多模態(現實)經驗後得知,這個步驟蘊含兩個要素,第一,資訊的輸入,1個東西+1個東西變成2個東西,這是我們"人類的"邏輯,而這樣子的資訊,對於一個抽象的概念,如何將此不存在的抽象"完整的"轉化為存在的"具象"變成可操控的輸入(給LLM"學習"),就是一個待解決的天問(這也是馬斯克所指出的),第二個要素,就是我們如何"習得"這個邏輯(推理能力),我們理解的是+的概念(試問:LLM理解+嗎?),首先要假設的是輸入的資訊已經是"充分的",那麼要如何讓LLM理解(學習)+這個概念呢?...等等,我們是如何理解+這個概念的呢....?好吧,雖然我們至今仍然無法理解大腦,但這不妨礙我們或許經由殊途同歸(或,歪打正著)的方式去實現相同的結果(學習v.),同時,因為先前的假設,所輸入的資訊已經是"充分的",實際上資訊輸入與模型架構本身環環相扣,因此,在尚未完全解決第一部分的問題時,我們只能先"假設"現在既有的token化的方式已經足夠充分,那麼現在的神經網路架構,是否能夠理解+?,當LLM看過了如此龐大的有關於+的文本之後,LLM裡面的參數結構,是否已經蘊含(掌握)了+的概念? 概念本身是抽象的,因此就跟人一樣(與是不是人無關)只能用考試來檢測,我之前有留言,說我感覺LLM就好像只是一個巨大的回歸,如同論文中所敘述的,一個複雜的模式匹配器,但是,問題在於,我們無法肯定,我們人類大腦就不是一個巨大的回歸系統(經驗系統),換句話說,我們以為的先驗性的邏輯推理,也有可能只是經驗性的歸納分析(但足夠複雜得像是先驗邏輯),TLDR,一種可能:還不夠規模,繼續! 另一種可能:很貴的計算機罷了,終究只是徒勞。
现在的算法确实没有推理能力,只是加快搜索。只有发现新算法具有推理能力才是真正的进展。
硬件不具備變化自適應的能力 意識難以產生
當模型記住了推理模式,你很難透過一般常見的推理問題去驗證模型是否有推理能力
就像 o1-prview 一開始在比較 9.11 與 9.8 還是會錯一樣
其實對模型數學原理理解的人大概都會得到同樣結論吧
NN 能夠做到這種程度已經非常厲害了,接下來是要將底層進行革新才能達到下一次的突破了
熵差加權重做成破缺,高斯動詞分佈使最低能
完全同意苹果论文观点
不能推理,还是一种更精确的召回策略
按照这篇论文的结论目前的大模型是不是都不是推理下工作,那么现在的模型是否全部要推翻,从新建立一个新的架构?感觉并不是一个好消息。
從邏輯範式規則來看,目前所有的大模型其實都不具備推理能力,只是具備產生合理性結果的能力而已,不是邏輯合理,而是語言表面合理而已
这回到一个基本问题,人类自己的所谓 “推理”,是不是也是一种模式匹配,所谓小镇刷题家嘛,这些问题,即使是人,也需要长期的训练(形成模式),才能正确思考。
很明显不是,人类这么多发明很明显不是匹配的结果。模式匹配能发现牛顿定律和相对论?
我个人认为人类的思考基本上也就是模式匹配,但是怎么说也是多层次的,多嵌套的模式匹配。编程的时候用ai你发现很多小的地方他完全不会推理
如果把逻辑推理看作模式匹配,那么数学公式和运算是不是也是模式匹配,显然不是。
@@htwcore這是人腦的幻覺能力,透過多重現實提出虛假的設定,最後再形成邏輯自恰,但牛頓力學也在相對論時期被打破,更後面也被量子力學又打破,這些你所謂的所謂科學都是從幻想的假說出發的
@@htwcore 了解一下拉马努金机,谷歌用来进行数学定理发现的AI。在没有给它相关知识的情况下,让他自己重新发现数学定理。实际上,它会发现。
语言模型就是一个大规模的输入法,只是给个可能性最高的可能性给我们。
結論就是AI離人類想像中的AI仍是十萬八千里。。。與其相信AI會湧現意識不如相信中國人夜騎是效法八千湘女上天山。。。
🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳🇨🇳
現階段還是決算法,但等到不知道哪個天才發明出新架構就不一樣
如我所料。另,基於語言模型之ANI的模式匹配是基於「類文字(字組/token)接龍」與轉換,而智人種的模式匹配是基於多層次的集合及其時序集合(關於次數--含數量)。
--
順帶一提,關於,模型規模越大,似乎,只越易失誤於較簡單的問題,反之,則只越易失誤於較複雜的;個人認為,其實,無論規模大小,都會遇到更加複雜或簡單,就較易失誤的情況,只是,狹域化/濃縮化之較小規模的中間區域較可涵蓋到較簡單的問題。
--
另外,有不少人認為類神經網路(及基於其的語言模型等等)都只是在做 機率統計、回歸分析、矩陣運算,不會如人腦,且無法推理;然而,條件機率的分母集合是先發生(兩次以上)的,且感測在時序集合上不矛盾(關於合理推理),神經系統在一些特性上如此(且神經元之間有並聯及其串聯;有集合的集合、並聯的並聯;可分辨順序的串聯)。…?
熟能生巧,量变到质变,这只是时间的问题。
LLM本來就是搜尋。以影像為例,就是把像素點及RGB形成的座標植,轉換到新的座標空間上(向量)。以一個1024X1024XRGB的影像來說,他所代表的排列組合太多了,已經超過宇宙所有原子的總和,因此把1024x1024xRGB的影像座標降維到新的空間中,就是標準的壓縮啊。然後在這新的空間中進行向量的模糊搜尋。我實在看不出這樣的機制有什麼推理的能力。
兄弟懂行啊
兄弟你還是講的太複雜:LLM主要是靠統計學找出關聯性所進行的輸出,當然不具有邏輯推論能力,但LLM能夠非常好的把人類累積的知識用很有效率的方式進行輸出,大大降低人類去學習多種領域的知識的時間,幫助真正具有邏輯推論能力的人類,更有效率產出有創造性的輸出,只是確實會讓很多人失業(例如以往科學研究領域都需要雇用一堆助理去讀論文,回答研究員關心的問題)
@@AlertImDK 兄弟說的有道理,但座標轉換這些都是統計方法嗎?感謝。
@@hujosh8693嚴格來說就是把大量的複雜數據低階化,簡單化的方法;舉例來說世界上有80億個完全不同的人類,但是透過MBTI,可以簡化成20多種
@@hujosh8693而大模型實際在做的事,就是用MBTI的結果,去預測80億人類中的一個的實際行為,當然是辦不到;單純從數學上看,要預測80億個個體其中一個的行為,參數至少需要80億的80億次方那麼多,很明顯是走不通
Thank you 大 飞 一口氣看到尾 看完再看 ☘ 😄 🌺 😇 🀄 😃 💐 ☕ 🌸 😁 🏵 😀 🧧 🎉 🌺 🎊 🏮 🍀
逻辑推理、数学计算是硅基的优势点,目前的语音模型 和 这个优势点 之间缺了一个链接器罢了,估计很快就能突破的,至少 数学计算的链接器更简单,很快就能突破。
Maxis运营商密码要怎么破解?
现在的模型都是我搞的😂在他们没有承认这些之前我不会再改进他😂
神經網絡是模仿人的大腦, 但現時神經元數量已比真人大腦的數量還多, 就知道人腦不完全是那樣運作的.
人腦是進化得來的.
應該要建立虛擬環境, 讓AI 以虛擬人類的肉體於虛擬地球內'生存', 讓AI有五感, 有肉體限制, 有出生, 有死亡, 有七情六慾,
那才能找出人腦運作和思考的方式.
推理? 現在的模型本來就是概率問題,離推理還早得很,但就算是機率也可以幫助人類攻克不少領域
驗算這方面還是要靠人類
模式匹配并非真的智能,现在所谓的AI大部份是喧嚣而已
试一试难一点的算法题,大模型根本就不会推理,即使一步一步给它解释
大脑也由物质组成不过是细胞 人的记忆 推理能力也是借助于物质存在 芯片也是物质 我觉得很有可能人工智能超越人类本身 现阶段要么模型不够复杂 要么参数不够多
Generative Pre-Trained Transformer 生成式预训练转换器。 并不是推理器
A I和无人驾驶一样 都有不能逾越的障碍
有推理能力,但好像还差了点什么。我的理解是它对逻辑的认识只通过训练数据,生成的是百分比,但对于数学这样的,完全建立在逻辑上的,全是百分百,它好像缺了一个理解这个是完全逻辑的,只有逻辑的问题,到处都是百分百答案的的东西。o1虽然也下降了,你没给数据,但应该远高于其他,所以这个问题open ai 应该有更好的解决方法。
需要自然語言到邏輯語言的完美轉換器,問題是大模型的功能之一就是幹這個的
應該不算能"推理"這篇跟我之前猜想一樣,現在的大模型給你的答案取決於他所"背誦的答案",舉一反三 作邏輯運算 目前還是沒有的,能推理的話....agi應該就出現了~哈
很多人抱怨LLM會產生幻覺,但有問題的是使用者,而非LLM:更簡單講,當你輸入的資訊過少,LLM在統計上就較難找出有壓倒性勝出的選項(例如輸出選項中A與B的機率分別是11%, 10%, 你讓LLM要怎麼選?),自然容易產生出錯或瞎掰,但當輸入資訊更多時輸出選項機率就更容易分出高低,因為LLM主要是靠統計學找出關聯性所進行的輸出
Well said ❤
站能推理這一邊。這些問題看起來都能簡單修復
似乎是大模型缺少抽象和规范到一般化能力,而这是逻辑的基础要素,然后再泛化,完成整个过程
我還以為寫程式是在推理。
😅我的感受就是一码农。目前表现最好的是Claude。GPT吹得很好,其实经常连翻译我的需求都看不性,还是会不懂装懂,还会覆盖上下文的需求,而不是把整个对话视作整体。
人類寫程式靠靠抄襲和推理,AI則是靠抄襲人類、抄襲AI、以及抄襲自己
為何大模型數學不行,不過在代碼方面就很厲害?
代碼不是自然語言,而是一種仿照人類語言創造的邏輯組合語言,幾乎沒有模糊地帶
大模型是有推理能力的,但是更像原来班上的一种学生,就是大部分靠背,题目一改就不太会了,你不能说那种学生没有推理能力,只是比较弱罢了。但是这些学生可以借助工具来提升他做事情的准确性,比如你需要他计算的时候他就会调用计算器,即便推理能力有限在工具的加乘下实力也会指数级别提升
原来如此。大语言模型就是个文科生,它的计算器还没做出来,所以是理科学渣😂所以做一个计算器给它用,再让它学习逻辑基础,应该就可以了。不过把各种语言的“主谓宾”都搞清楚,应该还做不到吧。这与大语言模型的底层逻辑冲突。
Great sharing thanks
这底下大多数评论者都比Hinton和伊利亚聪明😂。
其實不用做這麼複雜的實驗 看看google翻譯翻得有多爛就知道了 翻譯的不精準不是因為訓練數據不夠 是因為他根本無法理解句子的情境 翻譯這件事情是需要理解講話的人的意圖的 沒有邏輯能力的AI 翻譯出來的句子就顯得很生硬 不但生硬 而且有時候還曲解了句子的原意
4:50 前陣子教小學生的經驗,真的會有小學生會因為題目換湯不換藥就做不出題目
LLM也好、CNN、DNN,都是數學模型,在給定的輸入輸出擬合。本質就是想靠複雜模型(網路),使其學習pattern,輸出目標產物。
參數只要足夠大,例如人腦,就能處理足夠多維度的資訊。就目前參數量,本來就只能把小問題學起來。
就好像很多動物智商是人類的x歲一樣,上限就擺在那裡。怎麼一直會有人相信跟覺得LLM是真的能理解大問題,你叫一個小學生做大學題目能做出來嗎?超鋼了屬於是
同意Gray的观点。transformer的本质就是文本匹配。对于究竟是刷题还是理解,这不就是讨论应试教育吗?ai要刷形式逻辑很简单,关键还是现在没有技术解决具体到抽象的问题。机器淘汰了手工业者,ai也会淘汰不思考的人。如果真的ai会思考,我们只能期望阿西莫夫三定律而不是骇客帝国了
需要教它怎么去思考,这种教需要考虑各个方面,它可以做一点点推广,但是不能像人类一样思考和推理,也就是神经网络和我们的大脑还是存在显著差异. 深度学习最基础组成就是线性方程,我们的大脑肯定不是线性的.这些还是知识的,如果说到情感(包含太多矛盾),那更不可能相比了.
人腦發展出語言能力,人腦也發展出騎腳踏車的技能,,也,,也,,也,,
但是單項能力已經輸給機器性能了,,,
所以,未來的智能機器應該不是人類創造出來的,不是人類的邏輯推理做出來的,應該類似量子力學的邏輯。
模式匹配和推理规则没区别啊,一个正片段,一个负片段罢了,问题是匹配的结果递归不回去,这就是为什么你总是在和大模型聊天了。而正片段不好算早就广为人知了。
其實應該可以理解成" AI並不完全理解人類語言" ,就目前來看人類距離"AI覺醒"這個階段還有很長的路要走🤔
要發明能訓練推理的模型,必須能訓練題幹
看来,给AI上户口的日子还很远。😂 而且单一数据中心的电力供应物理上到极限了。再下去,只能给数据中心蓋座专属发电站了。
相信大语言模型,chatgpt才两岁!
人类的推理是怎么定义的? 是怎么实现的?与模式匹配有什么关联?
大模型的推理是绝对从未在任何场景下出现过? 还是结果不稳定一致性低? 还是实验结果无法验证?
这篇论文并不十分让人信服
“道可道,非常道”,可以讲得清楚的道理,就不是一般的道理。一千多年前的老子就知道现在的语言模型不行。
它又不是终结者里面的天网系统😂。
想想看,這些不懂推理的LLM正在大量消耗寶貴的資源
但是不消耗,你将一事无成
这虽然有研究的意义 但是数学问题 特别是基础数学问题难道没有专用的模型嘛 比如prediction model可以解决预测问题 只要针对每个🈶经济价值的数学问题 建立独立的model 再把它们融合到一起 不就可以了 对于终端用户来讲 gpt后面是什么并不重要 所以这个研究虽然有意义 但是真的🈶经济价值嘛 为什么一定要一个模型实行多项任务 🈶什么好处是不能被取代的
你說的是上個世代的專家系統,目前AI想解決的是一次性訓練出幾千萬個不同領域的專家系統的問題
@ 你说的是agent? agent也是基于llm专门训练的语言模型 更高效精准的解决专门问题 这并不能解决其先天的缺失 llm作为语言模型没有数学推理的逻辑 说到底也只是一种模型 目前专长不在此 何必强求
@@givim80 通用AI模型的目標就是這樣,當然我認為目前的通用AI模型在數學和邏輯上的缺陷太大,而且推理漏洞明顯無法在根本上解決,需要發展下一代模型才行
数学界早就得出结论了,大数据喂数据只是猜测器,不可能有真正的推理能力。
如果ChatGPT成功了,说明东亚式思维在一定程度上的成功,那么就否定了工业化以来250年的人类文明发展。所以无论如何这条路都是走不通的。
我第一次了解了大语言模型后凭直觉认为这玩意没有推理能力,因为人类不是通过语言才有了智能和各种能力,谁也不能每天花上几个小时看游泳书或者游泳视频就掌握游泳技能,人类本身就具有智能和运动能力,尚且无法做到。
因为人类的逻辑思维确实不依赖于语言啊,比如很多动物没有语言系统,但并不妨碍他们进行一些相对复杂的逻辑推理
有研究吗?我只看过乌鸦,一种基因改造新世界猴对颜色的识别和qualia的关系。
@@eckhartmeister0e1acc 有的,大飞往期有介绍过
@@yum5685 你的观念是大数据模型AI甚至比不上动物
上面的可以找黑猩猩的研究,有的黑猩猩甚至能證明簡單的數學問題
不具备真正的逻辑能力是最致命的缺陷
有推理能力就意謂著能思考,這樣的能力即便AI模型是真的有,敢公佈嗎?
如果说大语言模型准确率那么低的话,那几位通过AlphaFold研究蛋白质得奖的科学家怎么解释呢,总不能说诺贝尔的评委也不那么严谨吧。是不是目前大模型还只能是术业有专攻,AIpha go 只能下围棋, AlphaFold只能研究蛋白质,等到越来越多的专攻模型汇集到一起,总会有顿悟的一天
从前当知青的时候和农民住在一起,他家每次烧一大锅饭有一半是给猪吃的,这让我很震惊,于是想到一个问题:把猪当人养,会不会有一天猪会变成人?… 后来他家用卖猪的一百块钱翻新了房顶,主人跟我说养猪就是零钱聚整钱,一个很有用的银行。
离人类不是有距离。
AI最適合做的事:炒股票
高情商:推理
低情商:映射
即使大模型不会推理,只是把它当作一个更高级的数据库,现阶段也够了,还远未达到其能力的上限。学过transformer结构的人都知道里面的qvk和数据库的查询很像,只是现在数据本身都存成模型的权重了。即使不用AI、推理这些很fancy的词,仅仅只是说做了一个很好用的数据库,不也很好吗?现在真正的问题还是模型的幻觉问题,如果生成的回答足够靠谱,who care is it REAL intelligence or not?
问题,就是他基本上不靠谱,聊天是足够了,真的当主力完全无法从事严谨的工作,只能当一个工具,而且你还要辨认他给的结果是不是正确的,
问题不在这,,问题是上万亿的相关AI还在大资金投入,,,而全球的数据,基本上他已经全部喂下去了,,那请问,上万亿的投入最后收获什么?你不能指着他没收获吧,,,说了这东西聊天够用,如果用于电信欺诈是一个不错的工具,
@@风筝-k7b 我把它拿來做supervised learning的工作,語言上連翻譯的問題一起解決了。還可以移除在伺服器上訓練和布置模型的成本。
@@Sulzbach-dk7ov 用于当学习工具是可以的,我也常用AI去辅助看些哲学书,,让他帮整理段落的本意,寓意,和相关背景知识,,但核心你要有自己的判断能力,你要知道他有些内容是什么意思,因为我用的是中国AI,所以我不用太担心,他给的有些定义是否有引导政治正确的问题,
不是说他一无是处,而是千万小心,,用不好,会把自己带进沟里,而却不知道,,
因為蘋果沒能力
只好開始質疑別人
綠共方法之一
搞大模型的真的应该学点正经数学和TCS了