ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
⚠再次修改下声明:本期视频发出来后引发了巨大的争议,因为大家来自世界各地,观点上产生分歧这都可以理解。但我只是客观评测这款开源模型,而且并没有吹也没有黑,所以请不要给我扣帽子。我只是AI从业人员,我喜欢将一些开源的AI项目介绍给大家,如果翻看我之前的视频也会了解我的视频风格。还有就是评论区大家尽量理性讨论,不要情绪化,我不可能做到每期视频都符合每个人的喜好,但我会尽量做到更好。同时也感谢大家一如既往的支持🙏🙏🙏⚠还有就是评论区质疑deepseek给出的贪吃蛇代码,我在运行后操作贪吃蛇的时候故意不让贪吃蛇吃到食物,现在我已经将当时录制视频的时候,与deepseek对话的完整内容保存成了.mhtml文件然后发到了GitHub。如果觉得我的操作有问题的,请自行下载.mhtml文件到本地,然后用浏览器打开然后复制里面的代码,再自己创建python文件进行运行检查,这是文件下载链接:github.com/win4r/mytest/blob/main/DeepSeek%20-%20Into%20the%20Unknown.mhtml🔥关于评论区提到的测试模型的问题,我做一些回答:评估模型真实的实力,最关键的是看它的逻辑推理能力和解决复杂问题的能力。现在国内外的开发者都公认Claude 3.5 Sonnet在编程方面最强,连O1和O1 Pro这样的模型都达不到它的水平。在逻辑推理能力方面,真正厉害的模型和普通模型有很大区别。普通模型只会从预训练数据中回答问题,只会做预训练数据中存在的题目,遇到新问题就很难泛化或者进行复杂分析了。普通模型可能对一些常识性问题回答得挺好,这是因为这些内容在训练数据里都有。我之前让不同的模型写贪吃蛇游戏的代码,但是加了个新要求就是要同时出现多个食物和多条蛇,玩家控制一条蛇,其他蛇随机找食物吃。这个要求听起来简单,但实际上需要处理很多复杂的逻辑,比如多个食物的位置不能重叠,吃掉一个后其他食物还要保持原样等等。普通模型就搞不定了,因为训练数据里没有这种复杂版本的贪吃蛇代码。还有个更能说明问题的例子是质数计算。如果让模型写代码判断一个大数是不是质数,普通模型就只会给你最基础的算法,也就是从2开始一个个往上除。这种方法虽然能用,但特别慢,尤其是数字很大的时候。但是像GPT-4、O1、Claude 3.5这些顶尖模型就不一样了,它们会直接给你优化过的算法,比如米勒-拉宾素性检验。最关键的是,它们不需要你特意在prompt里强调"用高效算法",模型自己就能想到用更好的方法。所以用常识性问题评估大模型的能力,这个意义不大,能回答大部分常识性问题,只能说明这些问题可能被用于预训练大模型了。但是在编程或者数学问题上,将常见的题目进行修改,这样能保证预训练数据中不存在这些内容,那么模型能否按照需求给出可用的代码就能评估模型真实的推理能力和解决复杂问题的能力。不要看到贪吃蛇就觉得我是复制的网络上公开的贪吃蛇游戏的需求,这都是我自己改过的需求。对于形式逻辑推理题,也都可以自己稍微修改下来测试大模型。
實事求是,支持你
对的,只有自己实际用过才知道
@@AIsuperdomain 你的评测非常客观,比那个吹牛逼的强多了,我也用了一下,分别和ChatGPT cloudy做对比,差距还是很大的
@@smartmanp 谢谢
很客观 要继续做好自己的视频,不忘初心 。 那些攻击你的人大概是小粉红吧 玻璃心
我也进行了相应的测试,结果和你差不多,总体来说喜忧参半,但很高兴看到国内出现了相对优秀的AI。最重要的是,极低(相对而言)的成本实现,而且是可继续迭代更新的,令人振奋。
👍👍👍
评估很中肯
谢谢支持
有理有据令人信服
🤝🤝🤝
谢谢 , 挺好的视频
哥们😂!先赞后看🎉
🙏🙏🙏
测试的有理有据,感谢分享
谢谢支持🙏🙏🙏
謝謝你😊
谢谢支持🤝🤝
我个人试用经验感觉和你的测试比较符合,V3可能折中了语言表达,牺牲了编程能力,DeepSeek-Coder-V2-Instruct-0724 这个版本是编程能力最强的,后面官网API升级后就被替换掉了。之后V2.5和V3,编程能力一直在边缘化。
评价很中肯 我测试下来也是这样
deepseek v3很強了 試用的結果是 我覺得非推理模型的總統山 目前有他一席之地 但是生不逢時 gemini太犯規 非推理模型花錢肯定上3.5 這是天花板 免費仔gemini夠用了 2.0幾乎無限用 1206輪循一下 正常使用也用不完 能力還強 還有隱私問題 其他大廠付費用戶數據不會被拿去訓練 deepseek的話有這部分監管嗎 我是很懷疑
chatgpt用的少,但是Claude声明里面可没有承诺不用用户数据,只有Claude for Work的才承诺不会用用户数据。deepseek模型本来就不大,注重隐私的单位和企业完全可以自己搞个离线模型。deepseek目前还没开通付费服务,所以web端是肯定会收集训练数据的, 短期内现实一点的情况是,咨询他们公司,要求出个收费贵一点的api,协议不使用客户数据做训练。web端付费企业用户没出来之前,涉及商业机密的,最好还是不要用。如果不涉及的话,倒也没啥影响。
AI Studio 上的Gemini模型不能用的,和Gemini网上的模型差很多很多
@@AIsuperdomainAI Studio的Gemini模型是不能用的,比Gemini网上的Gemini模型的结果差太多太多了。AI Studio只是给开发者用的。😂
请问是部份开源还是完全开源呢?
视频是好视频,模型是好模型,唯一不足就是评论区中文杠精有点多。能来这杠也不错了,至少说明还在关注,而不是彻底隔离去混纯血chatgpt和claude英语社区了。
不知道是不是因为你用中文prompt的原因,我是用cline+deepseek v3+英文prompt,连Tetris都搞定了,感觉编程和sonnet差不多强
试试这个能不能开发:开发一个赛博朋克风格的贪吃蛇游戏,要求背景为蓝色渐变。游戏运行时界面同时出现多个不同颜色的食物。并且出现多条蛇,玩家控制一条蛇。其他蛇会自主随机寻找食物,当其他蛇的头部碰到玩家控制的蛇,玩家的蛇就会死掉并且游戏结束。当玩家控制的蛇的头部碰到其他蛇的时候,其他蛇就会死掉并消失。界面上会随机出现1个金色的食物,当玩家蛇吃到金色的食物的时候,蛇的长度会翻倍。当其他蛇吃到金色的时候的时候,长度也会翻倍。
很多開源模型都可以
我明天来试试看你的prompt
@@AIsuperdomain 英文提示词实测可以
个人猜想,可能是Deepseek蒸馏了OPENAI GPT4的合成预料,而高质量部分恰恰是英文导致的英文编程能力,比中文强吧
目前可以免费用吗
很客观。👍
deepseek nb主要是在发展速度和成本,慢慢来
你的提示词反复的让它不要吃到食物,它当然不可能吃到食物。
请看仔细,或者我把代码共享给你,你自己测试:现在我已经将当时录制视频的时候,与deepseek对话的完整内容保存成了.mhtml文件然后发到了GitHub。如果觉得我的操作有问题的,请自行下载.mhtml文件到本地,然后用浏览器打开然后复制里面的代码,再自己创建python文件进行运行检查,这是文件下载链接:github.com/win4r/mytest/blob/main/DeepSeek%20-%20Into%20the%20Unknown.mhtml
I copy the night steps from the author's 10 steps, but at last add one more r to the question: it still answer it has 9 r (should be 10)
感謝測試,想請問關於chatgpt o3 ,有什麼看法 真的這麼強嗎? 雖然還沒辦法測試 不過AI超元域測了這麼多ai model 有想法吧~~因為chatgpt o3數據也太強
openai的核心科学家基本都走光了,我认为o3也是个噱头,就像sora一样,真正用上了感觉很让人失望
@@AIsuperdomain 恩~ 主要是如果真的思考30分鐘能變得很聰明,這對編程來說 是會大影響巴~ 謝謝,再觀察看看
@@張博文-n6l这种价格和推理时间很难市场化,除非真得实现AGI
不見得哦 對公司來說 需要對付的時候 這比請工程師便宜
非常片面的测试😂
你大佬做一個完整的測試來看看?
我问他是不是开源 他说不是 因为它是基于OpenAI的技术开发的。
😂😂😂
@@AIsuperdomain你这种回复就显得很不专业,真的不是黑你
@@hdvoice 是专业还是休闲的回复不应该是回答者和提问者之间的共情么,您是第三者来插足专业不专业我无法判断,但是至少不礼貌吧
你不知道大模型会产生幻觉和说谎么?哈哈。就是预料来自GPT4合成数据,没洗干净,号称现在修复了,可以再试试看
想在自己的机器上部署,不知道对GPU要求有多高,我只有个4090
應該是不必吧 反應很快 感覺不到正在網上
4090怕不是比他们公司的显卡还好了
@@kk-cy3sz 显存还是太小
為什麼傳教士問題,我測試過,他11個步驟就解出來,跟你的不一樣。
可能模型推理过程不稳定
我今天提问传教士问题v3也推理出来了,但是当我继续询问如果每次都运送一位传教士和一位食人族会怎样,v3的推理解释就很复杂。然而gemini2.0解释就很简单,因为每次需要有人把船开回来,清晰易懂。我又问了解决这个问题的关节步骤,v3总结的十分繁琐,2.0就三步,先运送食人族: 先将食人族运到对岸,确保在左岸传教士的数量大于或等于食人族。再返回食人族: 然后让一个食人族返回,保持右岸的安全。再运送传教士: 逐步运输传教士,并用一个食人族充当“摆渡人”,确保安全。
👍👍👍感谢反馈
@@AIsuperdomain 我也是十亿步就接出来了
是11個步驟就解出來,但仔細看是錯誤的,它在ASCII的C在第七步驟時就會少掉。 用claude 9個步驟就完成,才是正解。
不稳定。我测试了 好简单的问题也一直出错 还是不行
对
你要是问SB问题,他只能告诉你其实你不是SB。
終於有人實測, 感謝你, 非常真實, 看後感覺就gpt 3.5的程度怪不得其他youtube都只敢播數據圖 而且取的數據圖都一樣果然請了一埋打手 口high遙遙領先
别测贪吃蛇、质数这种网上常见问题了,你怎么知道这些是AI从0自己写的,还是从哪里找来的代码片段?😂
我测试的是稍微修改了的,但是稍微修改了AI就无法实现了,说明推理能力还是很一般
@@AIsuperdomain 我也觉得这样测很难说明各自己的水平,只能说在你提的那个问题上那个更好,因为不同人群说的并不是同一件事,而普通人却总是喜欢把这些简单认为是一件事,最后就会出现不同的看法,所以很多时候就各执一词,所以反对你看法的人,可能也一样是做了你同样认为客观的测试,因为他测了其它模型欠缺的。然后就说,其它的差,所以这些很有可能只是模型对答对的问题有更多争对性的训练,就好比以前好是有人用周树人的问题去考,然后那些博主就把说能把这个问题回答对就是很强,但完全不对,就好比聪明只的是人对知识的运用能力,而不是知识量,很多人把读了多少书认为是聪明的指标,但显然不是读书多只是知识量丰富,也就是他有更多的工具,而聪明只的是一个人可能只用原始工具,也就是可能没读过书,但一样可以做到很多事情,而你的测试就像考一个人的知识量,这样变成知识量更多的叫做更聪明的。我觉得你应该更好的去自己设计一些问题,不过就以现在的模型,你做的可能也没错,本来现在的模型能做的也就统计。一个能做到虽一个做不到自己少证明在这方面他还欠缺。不过我觉得这些真的是重点吗?
评估模型真实的实力,最关键的是看它的逻辑推理能力。现在国内外的开发者都公认Claude 3.5 Sonnet在编程方面最强,连O1和O1 Pro这样的模型都达不到它的水平。在逻辑推理能力方面,真正厉害的模型和普通模型有很大区别。普通模型只会从预训练数据中回答问题,只会做预训练数据中存在的题目,遇到新问题就很难泛化或者进行复杂分析了。普通模型可能对一些常识性问题回答得挺好,这是因为这些内容在训练数据里都有。我之前让不同的模型写贪吃蛇游戏的代码,但是加了个新要求就是要同时出现多个食物和多条蛇,玩家控制一条蛇,其他蛇随机找食物吃。这个要求听起来简单,但实际上需要处理很多复杂的逻辑,比如多个食物的位置不能重叠,吃掉一个后其他食物还要保持原样等等。普通模型就搞不定了,因为训练数据里很少有这种复杂版本的贪吃蛇代码。还有个更能说明问题的例子是质数计算。如果让模型写代码判断一个大数是不是质数,普通模型就只会给你最基础的算法 - 从2开始一个个往上除。这种方法虽然能用,但特别慢,尤其是数字很大的时候。但是像GPT-4、O1、Claude 3.5这些顶尖模型就不一样了,它们会直接给你优化过的算法,比如米勒-拉宾素性检验。最关键的是,它们不需要你特意在prompt里强调"用高效算法",模型自己就能想到用更好的方法。所以用常识性问题评估大模型的能力,这个意义不大,能回答大部分常识性问题,只能说明这些问题可能被用于预训练大模型了。但是在编程或者数学问题上,将常见的题目进行修改,这样能保证预训练数据中不存在这些内容,那么模型能否按照需求给出可用的代码就能评估模型真实的推理能力和解决复杂问题的能力。不要看到贪吃蛇就觉得我是复制的网络上公开的贪吃蛇游戏的需求,这都是我自己改过的问题。对于形式逻辑推理题,也都可以自己稍微修改下来测试大模型。
赛博朋克贪吃蛇我试了一下就成功了,可能不太稳定吧
可能是moe問題😂
@@MikeAlan-d4t 你是英文还是中文prompt
试试这个提示词能否成功:开发一个赛博朋克风格的贪吃蛇游戏,要求背景为蓝色渐变。游戏运行时界面同时出现多个不同颜色的食物。并且出现多条蛇,玩家控制一条蛇。其他蛇会自主随机寻找食物,当其他蛇的头部碰到玩家控制的蛇,玩家的蛇就会死掉并且游戏结束。当玩家控制的蛇的头部碰到其他蛇的时候,其他蛇就会死掉并消失。界面上会随机出现1个金色的食物,当玩家蛇吃到金色的食物的时候,蛇的长度会翻倍。当其他蛇吃到金色的时候的时候,长度也会翻倍。
我用claude做貪食蛇也是一次就過了
但價錢真是太香....
有些測試問題在網路上流傳甚廣, 已分不清是真的推理還是背答案。自己一時半刻也想不出什麼刁難的題目,在驗證 AI 推理上好像總會遇到這樣的問題。
可以在现有题目的基础上做修改,比如贪吃蛇稍微修改下,AI就无法给出可以正确运行的代码了
拿本教科書 把習題拿去問他 或者網路教學的 你聽到甚麼樣不懂的 去問他 他通常答的最好
不同AI优势在于训练群体不同,因为AI就是群体的公共认知
救命》》。。我这么蠢吗?为什么风大放飞风筝风大不对...
注意他的使用條款 他會把上傳的資料留在伺服器 幾乎沒有安全性
给你免费用了,你不共享你的数据?
@@gaocori7413 OPENAI 可以要求不分享数据。关键是你有没有选择的权利,懂?
@@Zcs666 openai给你免费用吗?开源吗?懂?
@@gaocori7413 你不能用GPT?脑子呢?
感觉有点拉了
果然有点拉!!!
还是无法吃到食物,你要直接说要吃到食物
本来想试试的,一看要输入手机号就算了,不知道哪天就被远洋捕捞
遠洋捕撈是什麼意思?難不成還會派人來綁架嗎?
@@MaleGeminiCat 看你用繁体要么是外宾要么是装外宾
@@jamesyin79 你前一個問題搞得我迷糊,你沒回答。現在又丟另一個離題且同樣讓我一頭霧水的問題。我來自台灣,十幾年的老帳號。這個其實也不用我自己回答,你要是願意查,食指點一下我的帳號資料不就知道了。再來,我只是好奇你說的「遠洋捕撈」是什麼含意,閒聊罷了。你要是不爽回答,那你就不要回答嘛。什麼外賓不外賓的,文不對題,而且還迷糊人。
@@MaleGeminiCat 不用着急,你们湾湾马上也能享受了
想太多
😂
哈哈哈什么都好,就是杠精多
这是中国开发的,不允许说中国的不好,中国还是发展中国家,用 7% 的土地养活了 21 % 的人口,还有什么好说的
别别,不是都你这么娇性的
继续串
说之前请说明是中国的模型,提醒大家,反正我是不用任何CN国家队出的模型。
?CN 外的有这么大模型开源的上来就黑
@@hzhikang6304 😅😂😂
确实,中国的ai我是肯定不敢用的
🤣🤣🤣
"step": 8, "title": "Final Answer", "content": "## Final AnswerThere are *9 'r's* in 'strawberrrrrrrrry'.", "next_action": "final_answer"
国产的平台不敢用,模型还可以!
反正开放权重
你是说开放了权重可以自己部署是吗?主要这个模型有点太大了😂,部署起来成本有点高,个人用用如果api消耗不是特别惊人还是sonnet
千万别用,谢谢你。
别浪费国内算力,谢谢
@@lililili-gc2gi 放心吧,都留给你自己用
我让他给我写文章,竟然出来一大堆莫名其妙的英文,还不如kimi和豆包
果然好多人脑子里全是政治
1450无疑,真正的中国人哪有什么不敢用不会去用之说。不好才不用,分什么国籍😂
台湾人真的是反共反魔怔了,单纯的讨论技术问题,一句话都离不开政治,莫名其妙。
用过,简直垃圾
⚠再次修改下声明:本期视频发出来后引发了巨大的争议,因为大家来自世界各地,观点上产生分歧这都可以理解。但我只是客观评测这款开源模型,而且并没有吹也没有黑,所以请不要给我扣帽子。我只是AI从业人员,我喜欢将一些开源的AI项目介绍给大家,如果翻看我之前的视频也会了解我的视频风格。还有就是评论区大家尽量理性讨论,不要情绪化,我不可能做到每期视频都符合每个人的喜好,但我会尽量做到更好。同时也感谢大家一如既往的支持🙏🙏🙏
⚠还有就是评论区质疑deepseek给出的贪吃蛇代码,我在运行后操作贪吃蛇的时候故意不让贪吃蛇吃到食物,现在我已经将当时录制视频的时候,与deepseek对话的完整内容保存成了.mhtml文件然后发到了GitHub。如果觉得我的操作有问题的,请自行下载.mhtml文件到本地,然后用浏览器打开然后复制里面的代码,再自己创建python文件进行运行检查,这是文件下载链接:github.com/win4r/mytest/blob/main/DeepSeek%20-%20Into%20the%20Unknown.mhtml
🔥关于评论区提到的测试模型的问题,我做一些回答:
评估模型真实的实力,最关键的是看它的逻辑推理能力和解决复杂问题的能力。现在国内外的开发者都公认Claude 3.5 Sonnet在编程方面最强,连O1和O1 Pro这样的模型都达不到它的水平。
在逻辑推理能力方面,真正厉害的模型和普通模型有很大区别。普通模型只会从预训练数据中回答问题,只会做预训练数据中存在的题目,遇到新问题就很难泛化或者进行复杂分析了。普通模型可能对一些常识性问题回答得挺好,这是因为这些内容在训练数据里都有。
我之前让不同的模型写贪吃蛇游戏的代码,但是加了个新要求就是要同时出现多个食物和多条蛇,玩家控制一条蛇,其他蛇随机找食物吃。这个要求听起来简单,但实际上需要处理很多复杂的逻辑,比如多个食物的位置不能重叠,吃掉一个后其他食物还要保持原样等等。普通模型就搞不定了,因为训练数据里没有这种复杂版本的贪吃蛇代码。
还有个更能说明问题的例子是质数计算。如果让模型写代码判断一个大数是不是质数,普通模型就只会给你最基础的算法,也就是从2开始一个个往上除。这种方法虽然能用,但特别慢,尤其是数字很大的时候。但是像GPT-4、O1、Claude 3.5这些顶尖模型就不一样了,它们会直接给你优化过的算法,比如米勒-拉宾素性检验。最关键的是,它们不需要你特意在prompt里强调"用高效算法",模型自己就能想到用更好的方法。
所以用常识性问题评估大模型的能力,这个意义不大,能回答大部分常识性问题,只能说明这些问题可能被用于预训练大模型了。
但是在编程或者数学问题上,将常见的题目进行修改,这样能保证预训练数据中不存在这些内容,那么模型能否按照需求给出可用的代码就能评估模型真实的推理能力和解决复杂问题的能力。不要看到贪吃蛇就觉得我是复制的网络上公开的贪吃蛇游戏的需求,这都是我自己改过的需求。
对于形式逻辑推理题,也都可以自己稍微修改下来测试大模型。
實事求是,支持你
对的,只有自己实际用过才知道
@@AIsuperdomain 你的评测非常客观,比那个吹牛逼的强多了,我也用了一下,分别和ChatGPT cloudy做对比,差距还是很大的
@@smartmanp 谢谢
很客观 要继续做好自己的视频,不忘初心 。 那些攻击你的人大概是小粉红吧 玻璃心
我也进行了相应的测试,结果和你差不多,总体来说喜忧参半,但很高兴看到国内出现了相对优秀的AI。最重要的是,极低(相对而言)的成本实现,而且是可继续迭代更新的,令人振奋。
👍👍👍
评估很中肯
谢谢支持
有理有据令人信服
🤝🤝🤝
谢谢 , 挺好的视频
哥们😂!先赞后看🎉
🙏🙏🙏
测试的有理有据,感谢分享
谢谢支持🙏🙏🙏
謝謝你😊
谢谢支持🤝🤝
我个人试用经验感觉和你的测试比较符合,V3可能折中了语言表达,牺牲了编程能力,DeepSeek-Coder-V2-Instruct-0724 这个版本是编程能力最强的,后面官网API升级后就被替换掉了。之后V2.5和V3,编程能力一直在边缘化。
👍👍👍
评价很中肯 我测试下来也是这样
🤝🤝🤝
deepseek v3很強了 試用的結果是 我覺得非推理模型的總統山 目前有他一席之地 但是生不逢時 gemini太犯規 非推理模型花錢肯定上3.5 這是天花板 免費仔gemini夠用了 2.0幾乎無限用 1206輪循一下 正常使用也用不完 能力還強 還有隱私問題 其他大廠付費用戶數據不會被拿去訓練 deepseek的話有這部分監管嗎 我是很懷疑
👍👍👍
chatgpt用的少,但是Claude声明里面可没有承诺不用用户数据,只有Claude for Work的才承诺不会用用户数据。deepseek模型本来就不大,注重隐私的单位和企业完全可以自己搞个离线模型。deepseek目前还没开通付费服务,所以web端是肯定会收集训练数据的, 短期内现实一点的情况是,咨询他们公司,要求出个收费贵一点的api,协议不使用客户数据做训练。web端付费企业用户没出来之前,涉及商业机密的,最好还是不要用。如果不涉及的话,倒也没啥影响。
👍👍👍
AI Studio 上的Gemini模型不能用的,和Gemini网上的模型差很多很多
@@AIsuperdomainAI Studio的Gemini模型是不能用的,比Gemini网上的Gemini模型的结果差太多太多了。AI Studio只是给开发者用的。😂
请问是部份开源还是完全开源呢?
视频是好视频,模型是好模型,唯一不足就是评论区中文杠精有点多。能来这杠也不错了,至少说明还在关注,而不是彻底隔离去混纯血chatgpt和claude英语社区了。
不知道是不是因为你用中文prompt的原因,我是用cline+deepseek v3+英文prompt,连Tetris都搞定了,感觉编程和sonnet差不多强
试试这个能不能开发:
开发一个赛博朋克风格的贪吃蛇游戏,要求背景为蓝色渐变。
游戏运行时界面同时出现多个不同颜色的食物。
并且出现多条蛇,玩家控制一条蛇。
其他蛇会自主随机寻找食物,当其他蛇的头部碰到玩家控制的蛇,玩家的蛇就会死掉并且游戏结束。
当玩家控制的蛇的头部碰到其他蛇的时候,其他蛇就会死掉并消失。
界面上会随机出现1个金色的食物,当玩家蛇吃到金色的食物的时候,蛇的长度会翻倍。
当其他蛇吃到金色的时候的时候,长度也会翻倍。
很多開源模型都可以
我明天来试试看你的prompt
@@AIsuperdomain 英文提示词实测可以
个人猜想,可能是Deepseek蒸馏了OPENAI GPT4的合成预料,而高质量部分恰恰是英文导致的英文编程能力,比中文强吧
目前可以免费用吗
很客观。👍
谢谢支持
deepseek nb主要是在发展速度和成本,慢慢来
👍👍👍
你的提示词反复的让它不要吃到食物,它当然不可能吃到食物。
请看仔细,或者我把代码共享给你,你自己测试:
现在我已经将当时录制视频的时候,与deepseek对话的完整内容保存成了.mhtml文件然后发到了GitHub。如果觉得我的操作有问题的,请自行下载.mhtml文件到本地,然后用浏览器打开然后复制里面的代码,再自己创建python文件进行运行检查,这是文件下载链接:github.com/win4r/mytest/blob/main/DeepSeek%20-%20Into%20the%20Unknown.mhtml
I copy the night steps from the author's 10 steps, but at last add one more r to the question: it still answer it has 9 r (should be 10)
感謝測試,想請問關於chatgpt o3 ,有什麼看法 真的這麼強嗎? 雖然還沒辦法測試 不過AI超元域測了這麼多ai model 有想法吧~~
因為chatgpt o3數據也太強
openai的核心科学家基本都走光了,我认为o3也是个噱头,就像sora一样,真正用上了感觉很让人失望
@@AIsuperdomain 恩~ 主要是如果真的思考30分鐘能變得很聰明,這對編程來說 是會大影響巴~ 謝謝,再觀察看看
@@張博文-n6l这种价格和推理时间很难市场化,除非真得实现AGI
不見得哦 對公司來說 需要對付的時候 這比請工程師便宜
非常片面的测试😂
你大佬做一個完整的測試來看看?
我问他是不是开源 他说不是 因为它是基于OpenAI的技术开发的。
😂😂😂
@@AIsuperdomain你这种回复就显得很不专业,真的不是黑你
@@hdvoice 是专业还是休闲的回复不应该是回答者和提问者之间的共情么,您是第三者来插足专业不专业我无法判断,但是至少不礼貌吧
🙏🙏🙏
你不知道大模型会产生幻觉和说谎么?哈哈。就是预料来自GPT4合成数据,没洗干净,号称现在修复了,可以再试试看
想在自己的机器上部署,不知道对GPU要求有多高,我只有个4090
應該是不必吧 反應很快 感覺不到正在網上
4090怕不是比他们公司的显卡还好了
@@kk-cy3sz 显存还是太小
為什麼傳教士問題,我測試過,他11個步驟就解出來,跟你的不一樣。
可能模型推理过程不稳定
我今天提问传教士问题v3也推理出来了,但是当我继续询问如果每次都运送一位传教士和一位食人族会怎样,v3的推理解释就很复杂。然而gemini2.0解释就很简单,因为每次需要有人把船开回来,清晰易懂。我又问了解决这个问题的关节步骤,v3总结的十分繁琐,2.0就三步,
先运送食人族: 先将食人族运到对岸,确保在左岸传教士的数量大于或等于食人族。
再返回食人族: 然后让一个食人族返回,保持右岸的安全。
再运送传教士: 逐步运输传教士,并用一个食人族充当“摆渡人”,确保安全。
👍👍👍感谢反馈
@@AIsuperdomain 我也是十亿步就接出来了
是11個步驟就解出來,但仔細看是錯誤的,它在ASCII的C在第七步驟時就會少掉。 用claude 9個步驟就完成,才是正解。
不稳定。我测试了 好简单的问题也一直出错 还是不行
对
你要是问SB问题,他只能告诉你其实你不是SB。
終於有人實測, 感謝你, 非常真實, 看後感覺就gpt 3.5的程度
怪不得其他youtube都只敢播數據圖 而且取的數據圖都一樣
果然請了一埋打手 口high遙遙領先
别测贪吃蛇、质数这种网上常见问题了,你怎么知道这些是AI从0自己写的,还是从哪里找来的代码片段?😂
我测试的是稍微修改了的,但是稍微修改了AI就无法实现了,说明推理能力还是很一般
@@AIsuperdomain 我也觉得这样测很难说明各自己的水平,只能说在你提的那个问题上那个更好,因为不同人群说的并不是同一件事,而普通人却总是喜欢把这些简单认为是一件事,最后就会出现不同的看法,所以很多时候就各执一词,所以反对你看法的人,可能也一样是做了你同样认为客观的测试,因为他测了其它模型欠缺的。然后就说,其它的差,所以这些很有可能只是模型对答对的问题有更多争对性的训练,就好比以前好是有人用周树人的问题去考,然后那些博主就把说能把这个问题回答对就是很强,但完全不对,就好比聪明只的是人对知识的运用能力,而不是知识量,很多人把读了多少书认为是聪明的指标,但显然不是读书多只是知识量丰富,也就是他有更多的工具,而聪明只的是一个人可能只用原始工具,也就是可能没读过书,但一样可以做到很多事情,而你的测试就像考一个人的知识量,这样变成知识量更多的叫做更聪明的。我觉得你应该更好的去自己设计一些问题,不过就以现在的模型,你做的可能也没错,本来现在的模型能做的也就统计。一个能做到虽一个做不到自己少证明在这方面他还欠缺。不过我觉得这些真的是重点吗?
评估模型真实的实力,最关键的是看它的逻辑推理能力。现在国内外的开发者都公认Claude 3.5 Sonnet在编程方面最强,连O1和O1 Pro这样的模型都达不到它的水平。
在逻辑推理能力方面,真正厉害的模型和普通模型有很大区别。普通模型只会从预训练数据中回答问题,只会做预训练数据中存在的题目,遇到新问题就很难泛化或者进行复杂分析了。普通模型可能对一些常识性问题回答得挺好,这是因为这些内容在训练数据里都有。
我之前让不同的模型写贪吃蛇游戏的代码,但是加了个新要求就是要同时出现多个食物和多条蛇,玩家控制一条蛇,其他蛇随机找食物吃。这个要求听起来简单,但实际上需要处理很多复杂的逻辑,比如多个食物的位置不能重叠,吃掉一个后其他食物还要保持原样等等。普通模型就搞不定了,因为训练数据里很少有这种复杂版本的贪吃蛇代码。
还有个更能说明问题的例子是质数计算。如果让模型写代码判断一个大数是不是质数,普通模型就只会给你最基础的算法 - 从2开始一个个往上除。这种方法虽然能用,但特别慢,尤其是数字很大的时候。但是像GPT-4、O1、Claude 3.5这些顶尖模型就不一样了,它们会直接给你优化过的算法,比如米勒-拉宾素性检验。最关键的是,它们不需要你特意在prompt里强调"用高效算法",模型自己就能想到用更好的方法。
所以用常识性问题评估大模型的能力,这个意义不大,能回答大部分常识性问题,只能说明这些问题可能被用于预训练大模型了。
但是在编程或者数学问题上,将常见的题目进行修改,这样能保证预训练数据中不存在这些内容,那么模型能否按照需求给出可用的代码就能评估模型真实的推理能力和解决复杂问题的能力。不要看到贪吃蛇就觉得我是复制的网络上公开的贪吃蛇游戏的需求,这都是我自己改过的问题。
对于形式逻辑推理题,也都可以自己稍微修改下来测试大模型。
赛博朋克贪吃蛇我试了一下就成功了,可能不太稳定吧
👍👍👍
可能是moe問題😂
@@MikeAlan-d4t 你是英文还是中文prompt
试试这个提示词能否成功:
开发一个赛博朋克风格的贪吃蛇游戏,要求背景为蓝色渐变。
游戏运行时界面同时出现多个不同颜色的食物。
并且出现多条蛇,玩家控制一条蛇。
其他蛇会自主随机寻找食物,当其他蛇的头部碰到玩家控制的蛇,玩家的蛇就会死掉并且游戏结束。
当玩家控制的蛇的头部碰到其他蛇的时候,其他蛇就会死掉并消失。
界面上会随机出现1个金色的食物,当玩家蛇吃到金色的食物的时候,蛇的长度会翻倍。
当其他蛇吃到金色的时候的时候,长度也会翻倍。
我用claude做貪食蛇也是一次就過了
👍👍👍
但價錢真是太香....
👍👍👍
有些測試問題在網路上流傳甚廣, 已分不清是真的推理還是背答案。自己一時半刻也想不出什麼刁難的題目,在驗證 AI 推理上好像總會遇到這樣的問題。
可以在现有题目的基础上做修改,比如贪吃蛇稍微修改下,AI就无法给出可以正确运行的代码了
拿本教科書 把習題拿去問他 或者網路教學的 你聽到甚麼樣不懂的 去問他 他通常答的最好
不同AI优势在于训练群体不同,因为AI就是群体的公共认知
救命》》。。我这么蠢吗?为什么风大放飞风筝风大不对...
注意他的使用條款 他會把上傳的資料留在伺服器 幾乎沒有安全性
👍👍👍
给你免费用了,你不共享你的数据?
@@gaocori7413 OPENAI 可以要求不分享数据。关键是你有没有选择的权利,懂?
@@Zcs666 openai给你免费用吗?开源吗?懂?
@@gaocori7413 你不能用GPT?脑子呢?
感觉有点拉了
果然有点拉!!!
还是无法吃到食物,你要直接说要吃到食物
👍👍👍
本来想试试的,一看要输入手机号就算了,不知道哪天就被远洋捕捞
遠洋捕撈是什麼意思?難不成還會派人來綁架嗎?
@@MaleGeminiCat 看你用繁体要么是外宾要么是装外宾
@@jamesyin79 你前一個問題搞得我迷糊,你沒回答。現在又丟另一個離題且同樣讓我一頭霧水的問題。
我來自台灣,十幾年的老帳號。這個其實也不用我自己回答,你要是願意查,食指點一下我的帳號資料不就知道了。
再來,我只是好奇你說的「遠洋捕撈」是什麼含意,閒聊罷了。你要是不爽回答,那你就不要回答嘛。什麼外賓不外賓的,文不對題,而且還迷糊人。
@@MaleGeminiCat 不用着急,你们湾湾马上也能享受了
想太多
😂
哈哈哈什么都好,就是杠精多
这是中国开发的,不允许说中国的不好,中国还是发展中国家,用 7% 的土地养活了 21 % 的人口,还有什么好说的
别别,不是都你这么娇性的
继续串
说之前请说明是中国的模型,提醒大家,反正我是不用任何CN国家队出的模型。
😂😂😂
?CN 外的有这么大模型开源的上来就黑
@@hzhikang6304 😅😂😂
确实,中国的ai我是肯定不敢用的
🤣🤣🤣
"step": 8,
"title": "Final Answer",
"content": "## Final Answer
There are *9 'r's* in 'strawberrrrrrrrry'.",
"next_action": "final_answer"
国产的平台不敢用,模型还可以!
反正开放权重
你是说开放了权重可以自己部署是吗?主要这个模型有点太大了😂,部署起来成本有点高,个人用用如果api消耗不是特别惊人还是sonnet
千万别用,谢谢你。
别浪费国内算力,谢谢
@@lililili-gc2gi 放心吧,都留给你自己用
我让他给我写文章,竟然出来一大堆莫名其妙的英文,还不如kimi和豆包
目前可以免费用吗
果然好多人脑子里全是政治
1450无疑,真正的中国人哪有什么不敢用不会去用之说。不好才不用,分什么国籍😂
台湾人真的是反共反魔怔了,单纯的讨论技术问题,一句话都离不开政治,莫名其妙。
用过,简直垃圾