Python 應用 - 爬蟲篇 part1 | 看的到怎麼可能爬不回來!?賽馬娘通通跟我回家 ( 有 CC 字幕了 !! )

แชร์
ฝัง
  • เผยแพร่เมื่อ 12 มิ.ย. 2024
  • 這支影片是 Python 爬蟲的展示,內容會告訴各位網頁爬蟲是怎麼運作的,要怎麼用 Python 去東爬西爬,這集展示最基本的網頁爬蟲,內容爬了威秀和賽馬娘的角色。了解運作原理之後,基本上只要能在瀏覽器出現的東西,一定可以用程式爬回來,因為對方不會知道你是機器人還是真人,如果你是能看到內容的,那資料一定是以某種形式傳到你的瀏覽器,那我們就一定可以寫個腳本把他撈出來,相信自己 OAO !!!
    這邊總結一下爬蟲的步驟:
    1. 先檢查有沒有 API ,有的話直接抓 JSON 最快了
    2. 試著抓出 HTML 直接分析,頁數很少的話也可以手動抓 HTML 分析
    3. 模擬瀏覽器來爬
    希望我的影片,新手可以吸收,老手也有能從裡面學到些什麼東西
    如果看完這部影片對你有所幫助,希望你可以幫忙:
    1. 訂閱我的頻道
    2. 給這部影片點讚
    3. 如果你覺得有趣,也希望你可以分享出去
    4. 有什麼問題或希望我做影片的,歡迎留言給我, 我一定盡量回覆
    內容概要:
    0:00 前言
    0:14 開場白
    1:16 工具 Requests, Beautifulsoup, Selenium
    2:00 HTML 簡單介紹
    3:18 爬蟲示範 - Requests, Beautifulsoup
    7:07 實際演練 - 威秀熱映中的電影
    10:30 網頁結構差異 - 多頁式 vs 單頁式
    11:50 瀏覽器模擬器 - Selenium
    13:33 實際演練 - 賽馬娘角色
    14:27 Lazy loading
    14:57 下載馬兒
    17:18 結尾
    #程式語言 #程式設計 #程式開發 #爬蟲 #賽馬娘 #webcrawler #python #pythonprogramming #vscode #umamusume #ウマ娘 #selenium
    Music resource:
    1.freesound.org/people/juskiddi...
    2.freesound.org/people/Migfus20...
    3.freesound.org/people/greenvwb...
    Flaticon :
    Ladybug icons created by Freepik - Flaticon(www.flaticon.com/free-icons/l...)
    Idol icons created by max.icons - Flaticon(www.flaticon.com/free-icons/idol)
    Artwork icons created by monkik - Flaticon(www.flaticon.com/free-icons/a...)
    Music icons created by Freepik - Flaticon(www.flaticon.com/free-icons/m...)
    Tower pc icons created by Creative(www.flaticon.com/free-icons/t...)
    Computer icons created by monkik - Flaticon(www.flaticon.com/free-icons/c...)
    Server icons created by smashing(www.flaticon.com/free-icons/s...)
    Update icons created by Freepik - Flaticon(www.flaticon.com/free-icons/u...)

ความคิดเห็น • 55

  • @user-cy8td1ij6y
    @user-cy8td1ij6y ปีที่แล้ว

    很好懂!感謝大大無私的分享,看好多部都不會,這一部 18 分鐘就學會了!

  • @alterma01
    @alterma01 ปีที่แล้ว +1

    很好懂!感謝大大無私的分享

  • @kerhuangyu680
    @kerhuangyu680 9 หลายเดือนก่อน +5

    佩服,可以解說的這麼簡單基礎,還讓原始碼能做個對比,期待有更多的學習。

    • @recode-0
      @recode-0  9 หลายเดือนก่อน +3

      謝謝~ 盡可能把他簡化了~來拯救那些真的想學的朋朋😂😂
      因為越來越多奇怪的爬蟲課程一個比一個貴,明明不是什麼特難的技術XD
      有什麼希望我講的也可以推薦一下哦ww

    • @kerhuangyu680
      @kerhuangyu680 9 หลายเดือนก่อน

      現在比較難處理的是用拼圖、圖形字符等等這種驗証方式,不知道是否有機會借紹。(其實網路有很多可以講的,像您對資安監測就好像很有心得,也可以分享,網路上實際這樣講的,又可以很生動的,其實不多)
      @@recode-0

  • @penguinbrother_xux
    @penguinbrother_xux 3 วันที่ผ่านมา

    17:44 幫他爬完把檔案給他

  • @qooq2001
    @qooq2001 ปีที่แล้ว +1

    優質影片 推

  • @dd-jr7vt
    @dd-jr7vt 3 หลายเดือนก่อน

    說認真的 你講得很好,期待更多教學

    • @recode-0
      @recode-0  3 หลายเดือนก่อน

      謝謝支持~ 好久沒更了
      最近有覺得該復活一下了🥺

  • @EP-Yahoo
    @EP-Yahoo ปีที่แล้ว +2

    很好懂,感謝分享。 大推 😆

    • @recode-0
      @recode-0  ปีที่แล้ว

      謝謝🙏

  • @Sara-rs4oq
    @Sara-rs4oq 2 หลายเดือนก่อน

    好感動,謝謝你的教學 >

  • @user-cr1tx3xd7m
    @user-cr1tx3xd7m 6 หลายเดือนก่อน

    用馬兒解說讓我對爬蟲都有動力了!!

  • @SAM-608
    @SAM-608 5 หลายเดือนก่อน

    ❤多謝分享,很實用

  • @zaoge3197
    @zaoge3197 2 หลายเดือนก่อน

    講得真好 支持個

  • @leolee3317
    @leolee3317 6 หลายเดือนก่อน

    推!感謝版主

    • @recode-0
      @recode-0  6 หลายเดือนก่อน

      喔喔~ 感謝支持 🥹

  • @user-wb5nz4bw1p
    @user-wb5nz4bw1p 9 วันที่ผ่านมา

    ❤太强了!

  • @Yuwei9527
    @Yuwei9527 ปีที่แล้ว

    推!

    • @recode-0
      @recode-0  ปีที่แล้ว

      感謝你的支持>

  • @Fish_On_Juice
    @Fish_On_Juice 3 วันที่ผ่านมา

    謝謝大大,我期末作業要用到爬蟲的功能抓學校洗衣機的資料但一直爬失敗,直到看到你影片教的JavaScript賽馬娘那段,我才突然懂問題出在哪,感謝大大教學😍
    -
    1130610(一)1710

  • @joshuachen819
    @joshuachen819 10 หลายเดือนก่อน +2

    12:08 完完全全是現在的我 連問chatGPT都是舊的 有夠哭

    • @recode-0
      @recode-0  10 หลายเดือนก่อน

      您辛苦了XDDD
      乖乖的文件吧(O

  • @drew-lee
    @drew-lee 29 วันที่ผ่านมา +1

    5:20 開始,請問「同時對多個結構相同的元素 "進行相同的編輯" 」是用什麼套件達成的啊?
    有時候會看到程式開發的youtuber在用,卻不知如何用它

    • @recode-0
      @recode-0  13 วันที่ผ่านมา +1

      在vscode 選著一個字,按 Ctrl+L 就可以同時把相同的字抓住囉!
      (搜尋列要在清空的情況下)

  • @user-ec4qs7nu5m
    @user-ec4qs7nu5m ปีที่แล้ว

    說的很好欸 讚ㄛ~~ 不過我就是被一堆防爬的網站檔住了 XPATH CSS都定位不到~~QQ

    • @recode-0
      @recode-0  ปีที่แล้ว

      喔不 QQ
      好奇問一下哪個網站~
      下一個爬蟲影片可以順便加進來XDD
      最近被綁在海拉魯(X

  • @justinpingpong1118
    @justinpingpong1118 4 หลายเดือนก่อน +1

    只能中午看 因为早晚会红

  • @ashdu8611
    @ashdu8611 11 หลายเดือนก่อน

    希望下一個影片可用flaticon作範例QQ

    • @recode-0
      @recode-0  11 หลายเดือนก่อน +2

      好的👌 沒問題~
      但可能要等我一下 ,還在弄quick sort
      下下支影片就來更新 我速速😅

  • @phonedr.1013
    @phonedr.1013 3 หลายเดือนก่อน +1

    希望之後出直接打api 甚至逆向的!謝謝🙏

    • @recode-0
      @recode-0  3 หลายเดือนก่อน

      好的~納入考慮🤔

  • @terryterry8999
    @terryterry8999 6 หลายเดือนก่อน

    給你兩百分,真的是深入淺出,講到我啊罵都看得懂

    • @recode-0
      @recode-0  6 หลายเดือนก่อน

      阿嬤一起來寫扣~!

  • @jerrybinGG
    @jerrybinGG 5 หลายเดือนก่อน

    9:54 請問如果讓爬蟲去點選第二頁按鈕或是下一頁按鈕會不會更有效率?

    • @recode-0
      @recode-0  4 หลายเดือนก่อน

      我印象中,他不在畫面上會跳出不能點的錯誤,會需要先滾到讓他在畫面上再點(有API)
      當初只是想說用 for loop 就搞定了,可以省去找API 名字這件事 (#
      但我的話應該會去點下一頁,這樣可以少去考慮到底有幾頁這件事XD

  • @hsujack-sl4wu
    @hsujack-sl4wu ปีที่แล้ว

    大大 講得很好 ,但我沒基礎 聽得吃力 , 能否從基礎教起. 抱歉拉 做了過分的請求. 如果可以的話... 謝謝您喔

    • @recode-0
      @recode-0  ปีที่แล้ว

      懶人包系列好像被說節奏太快,有考慮之後上一些更基礎一點的影片,但影片還在緩慢製作中😂

  • @ytl0623
    @ytl0623 ปีที่แล้ว +1

    請問在VScode如何同時編輯多行的~酷!

    • @recode-0
      @recode-0  ปีที่แล้ว +3

      居然發現小彩蛋了(?
      有幾個(我)常用的方法:
      1. 按住alt 點到的地方,都會變成游標,可以一起編輯
      2. 按住 shift + alt 可以一次編輯一整排
      3. 滑鼠匡住一個字,按下 Ctrl + Shift + L 可以把同樣的字通通選起來,一起編輯(改名)

    • @Sara-rs4oq
      @Sara-rs4oq 2 หลายเดือนก่อน

      @@recode-0 謝謝~~~

  • @yishinliu532
    @yishinliu532 2 หลายเดือนก่อน

    請問老師,2:50秒,1.我要怎麼連上小網頁? 2.那隻雞的圖檔要放在哪邊?

    • @recode-0
      @recode-0  หลายเดือนก่อน

      1. 伺服器開起來後,底下的狀態他會跟你說開在哪。再打開瀏覽器連過去 (沒意外應該在localhost:8000 )
      2. 你路徑設定哪裡就放哪,假設你伺服器開在桌面,那你桌面就放一個 chicken.png,路徑是 ./chicken.png。如果圖片放在 abc 的資料夾,那就要設定成 ./abc/chicken.png

  • @user-sh1rt9ex5i
    @user-sh1rt9ex5i 6 หลายเดือนก่อน

    您好,想問一下在3:41
    resp.text跟resp.content之間的差異

    • @recode-0
      @recode-0  6 หลายเดือนก่อน +2

      text 是只把回應當字串(str) 拿回來,content 是把回應當 bytes 拿回來
      一般來說 HTML 應該都是可視字元所以會用 text ,而圖片基本上全部都是 bytes 所以會用 content

    • @user-sh1rt9ex5i
      @user-sh1rt9ex5i 6 หลายเดือนก่อน

      了解,謝謝您

    • @recode-0
      @recode-0  6 หลายเดือนก่อน +1

      但3:41的地方
      因為HTML 裡面,夾著中文字,他不是 ascii (0~128) 範圍的東西,這裡的中文是用 utf-8 編碼的,所以可以看到他被讀出來後變成像亂碼的東西,但實際上值應該是對的,只是他不知道該怎麼顯示@@
      那這邊只是示範一下,如果用bytes 來解,可以看到中文字變成 \xOO\xOO\xOO 這種東西,這時候再用 .decode() 他就會用 unicode 來解讀,就能看到中文了

  • @TaiShaGunThe
    @TaiShaGunThe 6 หลายเดือนก่อน

    請問5:40三行同時操作是怎麼做的

    • @recode-0
      @recode-0  6 หลายเดือนก่อน

      Vscode 的小功能
      1. 按住 alt + 滑鼠點
      2. 選著你想一起改的東西,按 CTRL + L

  • @user-hd8yw8kx2w
    @user-hd8yw8kx2w 7 หลายเดือนก่อน +1

    可以介紹怎麼用requests的post發messenger訊息嗎?
    我之前試過,發現連post的檔案都找不到orz

    • @recode-0
      @recode-0  7 หลายเดือนก่อน

      Request 應該無法,messenger 是用MQTT 來處理訊息,簡單來說就是打開App 或網頁的時候,會用某個機制和伺服器連線,然後保持著連線,就算你發了十次訊息,也都是那個連線在處理,讓他跟伺服器說,請伺服器再推播給對方。
      至於他到底怎麼連線和怎麼加密的應該可以在javascript 裡找出什麼端倪,但那坨被攪屎過的script 應該沒有人想去看
      所以還是用 selenium 夾 cookie 去點或搜尋你想傳的人傳訊息比較簡單。如果是粉專的話,印象中 Facebook 有開放 API 可以自動發訊息,可以去申請研究看看~

    • @user-hd8yw8kx2w
      @user-hd8yw8kx2w 7 หลายเดือนก่อน

      @@recode-0 感謝😁😆😄

  • @strolltimes
    @strolltimes 9 หลายเดือนก่อน

    請問趴兔在哪?

    • @recode-0
      @recode-0  9 หลายเดือนก่อน +2

      這裡~ th-cam.com/video/QdHd3hGMDAo/w-d-xo.html