可以看看看Claude 3.5 sonnet 補充一個小知識點 LaTex最正確發音是Latteㄏ /ˈlɑːtɛx/,國際音標中/x/的發音就是中文的ㄏ(雖然美國人也主要講Lah-Tek或Lay-tek就是) 官網說: LaTeX, which is pronounced «Lah-tech» or «Lay-tech» (to rhyme with «blech» or «Bertolt Brecht»), is a document preparation system for high-quality typesetting. It is most often used for medium-to-large technical or scientific documents, but it can be used for almost any form of publishing. TeX的作者說 "English words like ‘technology’ stem from a Greek root beginning with the letters τεχ...; and this same Greek word means art as well as technology. Hence the name TeX, which is an uppercase form of τεχ. Insiders pronounce the χ of TeX as a Greek chi, not as an ‘x’, so that TeX rhymes with the word blecchhh. It’s the ‘ch’ sound in Scottish words like loch or German words like ach; it’s a Spanish ‘j’ and a Russian ‘kh’. When you say it correctly to your computer, the terminal may become slightly moist." -- Donald Knuth 但其實blech /blɛç/; Brecht /bʁɛçt/,但也存在/x/代替/ç/的自由變體,但德文裡面ch是發/x/,且英文裡面發blech跟brecht像是蘇格蘭語的loch或yacht的ch。 然後你的/k/前面意外的帶有一點/x/的音
==== 回答觀眾問題 ====
Q: GPT-4o 考試時能上網搜尋資料嗎?
A: 不能。透過 API 做 Chat Completions 的話,預設就不允許模型使用搜尋、程式執行等工具。
Q: 把題目翻譯成英文再問他,會不會更好?
A: 有可能,我也蠻好奇的,有時間的話會做做看~
==== 以下是個人雜談 ====
做這支就花了兩個月🫠
雖然影片中對 Cheap 的實驗方法有不少批評,但不得不說,Cheap 的做法真的是很有效率,幾個小時內就能讓 AI 考完全部的考試,並且取得一個還算有參考價值的成績。
反觀我把考卷轉換成文字和圖片就花了好幾天,寫程式又花了好幾週,最後也只比 Cheap 取得的分數多一些些而已🥲
輸得最慘的地方是人家做影片有業配,我沒有😢
有沒有廠商想要在接下來的影片置入啊?
尤其是 AI PC 的廠商,我想跑跑看一些 local 端模型~
趕快趁我還便宜的時候找我互惠合作吧!
看的時候就在想
轉換這些文字
應該超級花時間的吧!
我想如果這塊有辦法解決的話
應該能處理掉很多實際上的問題?
整個影片還滿有趣的
感謝你的影片實作!
敲碗催更
@@willy123abc 感謝稱讚!
對,最後我是混合人力 + 程式 + AI 來做 PDF 轉文字和圖片,還是要花不少時間。
別著急哈哈 我18萬訂閱才收到第一支業配
是戰艦世界~ 現在很多VPN廠商都喜歡小YTer
持續更新很快就會有業配上門
prompt應該還可以特化,催眠他成為那一科別的專家,並以專家想法思考答案
去年二月很舊版的ChatGPT 就有被李永樂老師拿來測試大陸高考,和你的調整方向非常相似,可以參考看看:
ChatGPT參加北京高考,能考上哪個大學?你能比它分數更高嗎?
th-cam.com/video/GEXa2yrAucM/w-d-xo.htmlsi=K2GaqmasJD5an6l4
雖然結果沒有非常好,但每一科都有舉例幾題讓觀眾知道問題點在哪裡,使用上有什麼可以注意
我記得很久以前有看到一個影片是考美國的某個大學,他最後說到可以24小時和一個頂尖大學學歷的人聊天,是不可多得的,所以我也因此一直去研究他的知識存量和構造,與其談論可不可以到某一個標準,不如跟你一樣去理解他的構造和建造輔助的系統
好厲害~~Roger把AI的潛能榨出來了,果然數學不會就是不會
雖然我那偷懶的方法很快,直接上傳PDF、請它自己對答案,跑完全部只要幾個小時
但其實花最多時間的是驗算,AI算分數常常算錯,請他算能上那些系所也是
一開始還算能上台大法律,自肥的太嚴重了哈哈
期待明年新的模型,我相信幾年內chatGPT一定能上台大醫學系哈哈
哇 是Cheap本人😮
有,我在做 0:50 這段時有注意到,
你的影片 4:51 處有一個「ChatGPT 能上哪些台大科系」的表格,
你說是把考出來的分數跟加權採計的資料 PDF 丟給 ChatGPT 生成的,
我覺得這樣做不可能沒問題🤣 就自己寫程式生成了一樣的表格,
結果發現你的表格算出來的加權分數似乎都是正確的,
就知道你們一定花了不少時間驗算😆
同為軟體工程師,知道你講得輕鬆,背後還是有不少手動的地方要做,為了一隻影片真是辛苦了😂
認真一定要給推❤❤❤
謝謝☺️
真的,尤其程式的架構我花了超多時間思考、調整,
改進了幾十個版本之後,才變成影片中說的這樣、看起來理所當然的樣子。
但這些東西講了會拖慢影片節奏,理解的門檻也很高,我就不敢放在正片裡🫠
不用便宜行事做法的認真實驗,超讚~
很有趣的影片,相比cheap的影片,也印證了魯冰花的那句台詞:”有錢的小孩子,什麼都比較會”
這影片細膩的程度其實可以屌打很多二流碩士論文了,然後還不是每個題目都手動輸入CoT然後手動紀錄答案,真的太厲害
但仔細想想,這個研究很大程度讓通用型AI的發展提供一條清晰的道路。從長篇幅鬼打牆的對話中,精簡到只有一次對話就能正確答對的發展方向變得非常清晰。
就像當初python 被推廣之後出現很多函式庫,通用型AI也需要很多prompt資料庫,去建構整體的框架讓他思考,而不是讓使用者花大量時間討論輸出格式和問題背景。
我一直以為通用型AI發展無法立即變現的理由是因為人們會習慣問一些錯誤的問題、建立在錯誤的假設上、包含錯誤的資訊、參雜個人的觀點而非事實...等等操作方法,但問題是這個產品本該給我們一個預設框架去理解我們的問題。
1.還有grok 2/ llama 3.1 405b / claude 3.5 sonet 可以測試
2.非國文科考題翻譯成英文會有機會更好
3.數學推理還是大型語言的模型的弱項,要等後續的模型更新才有機會進步
好像聽說有專門做數學推理的ai?
不論哪者,我發現兩個用下來,人真的會失去自己思考的能力
或許用失去太重了,我用慢慢弱化也行
我大概仰賴這兩者約兩個月
其中頻繁的是翻譯,相對成效也很高
結果是漸漸地我開始對看不懂的文字感到頭痛就直接翻譯跟較高的排斥感
我認為這些都會間接影響到學習該事物的興趣
但,確實拿來做些工作類的,是非常順的
有時能想到自己沒思考過的範圍
卻又同時覺得自己已經開始無法列出重點,仰賴這兩者
而大腦是需要消化理解才能條列、邏輯式的列出,也代表自己有吸收
感覺上使用多效率是高,但這效率的背後似乎正在慢慢蠶食自身的一些能力
優質影片推推!
雖然用了程式自動化,但背後工作量還是不小吧!
看來這次不是Cheap,而是Expensive
可以看看看Claude 3.5 sonnet
補充一個小知識點 LaTex最正確發音是Latteㄏ /ˈlɑːtɛx/,國際音標中/x/的發音就是中文的ㄏ(雖然美國人也主要講Lah-Tek或Lay-tek就是)
官網說:
LaTeX, which is pronounced «Lah-tech» or «Lay-tech» (to rhyme with «blech» or «Bertolt Brecht»), is a document preparation system for high-quality typesetting. It is most often used for medium-to-large technical or scientific documents, but it can be used for almost any form of publishing.
TeX的作者說
"English words like ‘technology’ stem from a Greek root beginning with the letters τεχ...; and this same Greek word means art as well as technology. Hence the name TeX, which is an uppercase form of τεχ.
Insiders pronounce the χ of TeX as a Greek chi, not as an ‘x’, so that TeX rhymes with the word blecchhh. It’s the ‘ch’ sound in Scottish words like loch or German words like ach; it’s a Spanish ‘j’ and a Russian ‘kh’. When you say it correctly to your computer, the terminal may become slightly moist."
-- Donald Knuth
但其實blech /blɛç/; Brecht /bʁɛçt/,但也存在/x/代替/ç/的自由變體,但德文裡面ch是發/x/,且英文裡面發blech跟brecht像是蘇格蘭語的loch或yacht的ch。
然後你的/k/前面意外的帶有一點/x/的音
根據我自己的經驗,解需要計算的題目,最好在網頁版使用並加上prompt: 請使用Python完成計算。
這樣才能真正發揮出語言模型的邏輯能力,不然常常數學的答案在簡單不必要的地方出錯。我認為數甲數乙如果開放python的話會進步很多。
敲碗寫過五年份考古題並訂正之後的GPT 4o
不知道大大能否開源,這樣Taiwan 的 LLM model 就有指考 benchmark 了 相當有趣
👀
之前試過數學先餵歷屆試題或是要gpt給2~3種以上解法再輸出答案,可以提升數學的分數1成左右,或是要AI角色扮演成數學老師,每一行推論都要解釋給學生聽,也可以提高正確率
很棒且完整的實驗影片~
謝謝~
解問題的思路和脈絡都很清楚 感覺可以變成一個研究了XD
想看Claude model考一次
因為都可以參考現有資料,等於openbook(包含GOOGLE資料)考指考,用這想法來想,只求解不求學會,人應該可以一天內完成全部科目的考試,而且考上台大醫科吧?
反推回來就是,AI在要求高精度的作業下,效率與品質好像都還遠不及一般人
我國小曾經遇過一個陷阱題他,他的題目有誤導性,正確解法不能把車子拆分,看來GPT沒辦法判斷這種陷阱
你說:
一艘船可以載10頓有50台車總共40頓需要幾艘船才能載完
ChatGPT 說:
我們可以先計算一下總重量,然後再計算需要多少艘船。
每台車重 40 噸/50=0.8 噸40噸/50=0.8噸。
所以,總重量是:
50×0.8=40 噸50×0.8=40噸
每艘船可以載 10 噸,那麼需要的船數量為:
40 噸10 噸/船=4 艘船10噸/船40噸=4艘船
因此,需要 4 艘船才能載完這 50 台車。
這人做了好多我想做的事
看完只有佩服,太厲害了
不知道數學或其他科請Ai用不同方法思維驗算幾次然後取答案票數高的選項,或是請AI用刪去法先刪掉幾個完全不對的答案再解題成績會不會較好?至於數學圖片,我認為是不是也需要請AI先找看看那屆的數學考題與你的圖比對看看確認AI真的以當屆考題來做答。最後畢竟這也算是人類考試的行為之一,驗算或是猜題都是。
不知 OpenAI 用了多少台灣相關的資料做預訓練和微調,也許把課本都丟給 GPT-4o 學習他就考得上了
不過這模型幾千億參數即使掛 LoRA 微調應該也要不少顆GPU 和數月時間,這成本一般人玩不起 XD
倒是蠻好奇那堆幾十億的模型經過微調後能不能上了 XD,如有台灣課本的資料集和測試集,加上電費可以便宜一些的話,
還真想來做小實驗。:D
很棒的分析與實驗。很好奇如果使用 Wolfram GPT 或者數學的plug-in, 數學是否能大幅進步. 因為AI的應用應該還是朝著整合各種資源來達到最強的能力.
好厲害..
可以看出在英文科這方面他是滿分的~所以有可能是中文翻譯的語法不對本意,若所有考券翻譯成英文,是否分數又會不同.(可以先從錯誤的翻一段英文給他 看是否可以正解來推測)
正在做囉~
郝毅博中文說得越來越好了
好專業
想請問以下幾種狀況對生成回答品質的影響:
1. 中文指示 中文題目內容
2. 英文指示 中文題目內容 (中英混用)
3. 用全英文下prompt ,在這個例子下要先把題目翻成英文
原來CoT這麼重要 難怪我常覺得AI都在亂答題
而且 原來截圖的方式就已經足夠好了
說實在他辨識 LaTeX 的成功率高得嚇人,我從沒看過他辨識錯
CoT prompt 我覺得在未來會越來越不重要,但至少目前還是有用的~
@@swerogerChatGPT用LaTeX輸出
好認真的實驗,突然想到如果先準備好過去幾年的考題和詳解,然後再讓模型做RAG不知道會不會有更強的表現
感覺幫助不大,執行起來也麻煩,我應該不會做,看有沒有人要做做看~
想看在相同Prompt的情況下 Claude 3.5 somnet 可以拿幾分! 謝謝
我長期用GPT開發的小心得,如果是比較複雜的邏輯問題GPT4會比4o給出更精確的答案
另外有點好奇如果建本地LLM來訓練,把更早之前考古題丟進去,不知道會怎樣🤔🤔
如果把ChatGPT錯的題目拿出來轉成英文,不知道答案會不會更正確?
英文通常還是微幅進步,數理是目前LLM致命傷,只要突破邏輯推理,進展就會飛速了
求問~可以提供自動化的程式碼嗎?
自動化丟進ChatGPT 真的好吸引人🥹謝謝🙏
也太帥了吧
我曾經讓GPT幫我算過一些機率問題,可是他每次都算錯,感覺他對中文的數學邏輯的理解能力有問題,或許把數學題目變成英文的格式他會比較容易理解
考慮用歷屆試題做fine-tuning或用課本資料做embedding之後再測嗎?
應該不考慮,我想要盡可能客觀地測試 AI 當下的能力,而不是用各種輔助方法讓 AI 考出高分
還在等539影片耶😂
已經公告過短期內不會再做樂透彩相關影片了喔
懂了,財務金融學系>醫學系
再考一次也許可以當柯文哲學弟。
可以再加上rag讓他自己查資料試試看
之前聽過一個說法,要chatGPT去寫數學就像是你去叫中文系算數學一樣
不知道更換gpt的Agent會不會讓數理的成績再高一點
我想問一下關於數學的考題, 請問你有讓 ChatGPT 用 Python 嗎? 我一直認為讓大語言模型用越來越多的工具才是未來的方向. 不知道你的看法如何?
考試的當下沒有允許他使用任何其他工具喔。
如果是解決實務上的問題的話,讓 AI 可以用各種工具確實會更好。
但考試我比較想測的是他不靠額外工具展現出來的基本能力
其實數學的考分有點超出我意料的低,我一直以為物理應該對ai來說更抽象,應該會是物理考比較差才對,沒想到反過來,物理考很高數學考很低,你的建議很好,因為再怎麼說ai底層一定有自已的計算方式,就好像人類底層是大腦直接計算,但是人如果有工具像是紙和筆對於計算就有幫助,同理ai也應該要能用方便處理計算的python當工具才合理,ai本身就有python的能力把他拿掉就不是他真實的能力了
這有意思
要不要試試看除了國文科之外事先做一個翻譯成英文的步驟再讓他答題,這樣會不會有顯著的效果
chatgpt不會算的就是不會算,像是4y''+36=csc 3x,你看他的過程哪裡算錯了,跟他講,他最終還是會算錯,而且還可以錯的不一樣。
看到ai 考不上我就放心了 要是我都被他比下去了我感覺我整個高中白讀了
可是照這個趨勢,很可能一兩年內 AI 就會強大到足以考上台大醫科了,到時候我們還是必須重新思考教育的意義😰
想請問為何要將所有題目都丟到API,這樣豈不是又要多付費了嗎?為何不在網頁版直接詢問所有題目就好!
因為手動傳題目、收集答案不只麻煩還容易出錯,我寧可花錢省時間🙂
GPT考英文99分,可以直推外文系。
不能複製的pdf也沒辦法看
⚡️
植物大戰殭屍BGM好評
順帶一提
很多人覺得AI數學不好
那只是因為你拿大語言模型算數學
事實上DeepMind研發的專用數學模型已經達到IMO頂尖選手的水準了
Chatgpt 寫英文根本就是降維打擊
可以出一集考中國高考試看看上不上得了清華北大😂😂😂
這交給B站up主們做吧😂
為什麼4o的數學跟物理還是不強😢
想問一下使用poe代替chatgpt除了不能使用api之外分別大嗎, 例如會不會有記憶?
對Poe不熟耶,你可能要看看他有沒有相關設定,或者自己做實驗看看
沒想到化學考那麼高還是進不了化學系
幾乎都是數學害的
Ai真的數學是苦手,很簡單的國小算數都會錯。
想請問一下,現在這個版本的ChatGPT-4o是有連網的嗎?如果使用有連網路的Gemini會不會答的比較好一點?
沒有連網。透過 API 問問題的話,預設就是不允許模型上網搜尋資料的。
能連網的話當然有可能考得更好,但這樣就測不出模型本身的知識量和推理能力了,所以我不會特別想測這個。
@@sweroger 有一種說法是說由於輸入給這些AI使用的資料大部份來自國外,也就是英文為母語的資料,這導致AI對中文的理解會比較差,如果這個理論成立的話,也就是說請AI來考美國或英語題目的數學,生物就會考的比較好,所以各國需要有自已的原生AI訓練!這樣的話,比較美國SAT與台灣指考的分數落點差異是不是看出這件事情?就是同一個學生考台跟考美國的差別,也許也可以考大陸的!
數學不會就是不會😂😂😂
這對ai來說只是剛開始
測試費版雙子星2.0
看到了嗎? 該學的是 如何讓AI看懂你的問題 而不是國英數自社
台灣教育 會爛尾 跟中國的樓一樣