Python 應用 - 爬蟲篇 part1 | 看的到怎麼可能爬不回來!?賽馬娘通通跟我回家 ( 有 CC 字幕了 !! )
ฝัง
- เผยแพร่เมื่อ 12 มิ.ย. 2024
- 這支影片是 Python 爬蟲的展示,內容會告訴各位網頁爬蟲是怎麼運作的,要怎麼用 Python 去東爬西爬,這集展示最基本的網頁爬蟲,內容爬了威秀和賽馬娘的角色。了解運作原理之後,基本上只要能在瀏覽器出現的東西,一定可以用程式爬回來,因為對方不會知道你是機器人還是真人,如果你是能看到內容的,那資料一定是以某種形式傳到你的瀏覽器,那我們就一定可以寫個腳本把他撈出來,相信自己 OAO !!!
這邊總結一下爬蟲的步驟:
1. 先檢查有沒有 API ,有的話直接抓 JSON 最快了
2. 試著抓出 HTML 直接分析,頁數很少的話也可以手動抓 HTML 分析
3. 模擬瀏覽器來爬
希望我的影片,新手可以吸收,老手也有能從裡面學到些什麼東西
如果看完這部影片對你有所幫助,希望你可以幫忙:
1. 訂閱我的頻道
2. 給這部影片點讚
3. 如果你覺得有趣,也希望你可以分享出去
4. 有什麼問題或希望我做影片的,歡迎留言給我, 我一定盡量回覆
內容概要:
0:00 前言
0:14 開場白
1:16 工具 Requests, Beautifulsoup, Selenium
2:00 HTML 簡單介紹
3:18 爬蟲示範 - Requests, Beautifulsoup
7:07 實際演練 - 威秀熱映中的電影
10:30 網頁結構差異 - 多頁式 vs 單頁式
11:50 瀏覽器模擬器 - Selenium
13:33 實際演練 - 賽馬娘角色
14:27 Lazy loading
14:57 下載馬兒
17:18 結尾
#程式語言 #程式設計 #程式開發 #爬蟲 #賽馬娘 #webcrawler #python #pythonprogramming #vscode #umamusume #ウマ娘 #selenium
Music resource:
1.freesound.org/people/juskiddi...
2.freesound.org/people/Migfus20...
3.freesound.org/people/greenvwb...
Flaticon :
Ladybug icons created by Freepik - Flaticon(www.flaticon.com/free-icons/l...)
Idol icons created by max.icons - Flaticon(www.flaticon.com/free-icons/idol)
Artwork icons created by monkik - Flaticon(www.flaticon.com/free-icons/a...)
Music icons created by Freepik - Flaticon(www.flaticon.com/free-icons/m...)
Tower pc icons created by Creative(www.flaticon.com/free-icons/t...)
Computer icons created by monkik - Flaticon(www.flaticon.com/free-icons/c...)
Server icons created by smashing(www.flaticon.com/free-icons/s...)
Update icons created by Freepik - Flaticon(www.flaticon.com/free-icons/u...)
很好懂!感謝大大無私的分享,看好多部都不會,這一部 18 分鐘就學會了!
很好懂!感謝大大無私的分享
佩服,可以解說的這麼簡單基礎,還讓原始碼能做個對比,期待有更多的學習。
謝謝~ 盡可能把他簡化了~來拯救那些真的想學的朋朋😂😂
因為越來越多奇怪的爬蟲課程一個比一個貴,明明不是什麼特難的技術XD
有什麼希望我講的也可以推薦一下哦ww
現在比較難處理的是用拼圖、圖形字符等等這種驗証方式,不知道是否有機會借紹。(其實網路有很多可以講的,像您對資安監測就好像很有心得,也可以分享,網路上實際這樣講的,又可以很生動的,其實不多)
@@recode-0
17:44 幫他爬完把檔案給他
優質影片 推
說認真的 你講得很好,期待更多教學
謝謝支持~ 好久沒更了
最近有覺得該復活一下了🥺
很好懂,感謝分享。 大推 😆
謝謝🙏
好感動,謝謝你的教學 >
用馬兒解說讓我對爬蟲都有動力了!!
❤多謝分享,很實用
講得真好 支持個
推!感謝版主
喔喔~ 感謝支持 🥹
❤太强了!
推!
感謝你的支持>
謝謝大大,我期末作業要用到爬蟲的功能抓學校洗衣機的資料但一直爬失敗,直到看到你影片教的JavaScript賽馬娘那段,我才突然懂問題出在哪,感謝大大教學😍
-
1130610(一)1710
12:08 完完全全是現在的我 連問chatGPT都是舊的 有夠哭
您辛苦了XDDD
乖乖的文件吧(O
5:20 開始,請問「同時對多個結構相同的元素 "進行相同的編輯" 」是用什麼套件達成的啊?
有時候會看到程式開發的youtuber在用,卻不知如何用它
在vscode 選著一個字,按 Ctrl+L 就可以同時把相同的字抓住囉!
(搜尋列要在清空的情況下)
說的很好欸 讚ㄛ~~ 不過我就是被一堆防爬的網站檔住了 XPATH CSS都定位不到~~QQ
喔不 QQ
好奇問一下哪個網站~
下一個爬蟲影片可以順便加進來XDD
最近被綁在海拉魯(X
只能中午看 因为早晚会红
希望下一個影片可用flaticon作範例QQ
好的👌 沒問題~
但可能要等我一下 ,還在弄quick sort
下下支影片就來更新 我速速😅
希望之後出直接打api 甚至逆向的!謝謝🙏
好的~納入考慮🤔
給你兩百分,真的是深入淺出,講到我啊罵都看得懂
阿嬤一起來寫扣~!
9:54 請問如果讓爬蟲去點選第二頁按鈕或是下一頁按鈕會不會更有效率?
我印象中,他不在畫面上會跳出不能點的錯誤,會需要先滾到讓他在畫面上再點(有API)
當初只是想說用 for loop 就搞定了,可以省去找API 名字這件事 (#
但我的話應該會去點下一頁,這樣可以少去考慮到底有幾頁這件事XD
大大 講得很好 ,但我沒基礎 聽得吃力 , 能否從基礎教起. 抱歉拉 做了過分的請求. 如果可以的話... 謝謝您喔
懶人包系列好像被說節奏太快,有考慮之後上一些更基礎一點的影片,但影片還在緩慢製作中😂
請問在VScode如何同時編輯多行的~酷!
居然發現小彩蛋了(?
有幾個(我)常用的方法:
1. 按住alt 點到的地方,都會變成游標,可以一起編輯
2. 按住 shift + alt 可以一次編輯一整排
3. 滑鼠匡住一個字,按下 Ctrl + Shift + L 可以把同樣的字通通選起來,一起編輯(改名)
@@recode-0 謝謝~~~
請問老師,2:50秒,1.我要怎麼連上小網頁? 2.那隻雞的圖檔要放在哪邊?
1. 伺服器開起來後,底下的狀態他會跟你說開在哪。再打開瀏覽器連過去 (沒意外應該在localhost:8000 )
2. 你路徑設定哪裡就放哪,假設你伺服器開在桌面,那你桌面就放一個 chicken.png,路徑是 ./chicken.png。如果圖片放在 abc 的資料夾,那就要設定成 ./abc/chicken.png
您好,想問一下在3:41
resp.text跟resp.content之間的差異
text 是只把回應當字串(str) 拿回來,content 是把回應當 bytes 拿回來
一般來說 HTML 應該都是可視字元所以會用 text ,而圖片基本上全部都是 bytes 所以會用 content
了解,謝謝您
但3:41的地方
因為HTML 裡面,夾著中文字,他不是 ascii (0~128) 範圍的東西,這裡的中文是用 utf-8 編碼的,所以可以看到他被讀出來後變成像亂碼的東西,但實際上值應該是對的,只是他不知道該怎麼顯示@@
那這邊只是示範一下,如果用bytes 來解,可以看到中文字變成 \xOO\xOO\xOO 這種東西,這時候再用 .decode() 他就會用 unicode 來解讀,就能看到中文了
請問5:40三行同時操作是怎麼做的
Vscode 的小功能
1. 按住 alt + 滑鼠點
2. 選著你想一起改的東西,按 CTRL + L
可以介紹怎麼用requests的post發messenger訊息嗎?
我之前試過,發現連post的檔案都找不到orz
Request 應該無法,messenger 是用MQTT 來處理訊息,簡單來說就是打開App 或網頁的時候,會用某個機制和伺服器連線,然後保持著連線,就算你發了十次訊息,也都是那個連線在處理,讓他跟伺服器說,請伺服器再推播給對方。
至於他到底怎麼連線和怎麼加密的應該可以在javascript 裡找出什麼端倪,但那坨被攪屎過的script 應該沒有人想去看
所以還是用 selenium 夾 cookie 去點或搜尋你想傳的人傳訊息比較簡單。如果是粉專的話,印象中 Facebook 有開放 API 可以自動發訊息,可以去申請研究看看~
@@recode-0 感謝😁😆😄
請問趴兔在哪?
這裡~ th-cam.com/video/QdHd3hGMDAo/w-d-xo.html