Python 爬蟲高級技巧:突破網路防護、模仿瀏覽器、使用 Cookie 與每日自動化排程全攻略 | 成為爬蟲王 (‧o‧) (‧o‧) (‧o‧)

แชร์
ฝัง
  • เผยแพร่เมื่อ 19 ธ.ค. 2024

ความคิดเห็น • 104

  • @weskersteve8887
    @weskersteve8887 ปีที่แล้ว +4

    第一句话很对,能看到的东西就一定能爬下来!

  • @爱提问的慢半拍
    @爱提问的慢半拍 ปีที่แล้ว +6

    好腻害!!刚接触到爬虫的知识,就有了这个影片,你是上帝派来的救星啊

    • @recode-0
      @recode-0  ปีที่แล้ว

      希望有幫到你 哈哈

  • @akebiYY
    @akebiYY ปีที่แล้ว +4

    連那些英文的頻道都沒您講的清楚~太強了,絕對支持!

    • @recode-0
      @recode-0  ปีที่แล้ว +1

      感謝支持🥹
      之後忙完會再陸續更新!

    • @phonedr.1013
      @phonedr.1013 10 หลายเดือนก่อน

      真的 對岸的也沒這麼清晰 這思路很鬼

    • @HamuraSho
      @HamuraSho 2 หลายเดือนก่อน

      ​@@recode-0許願忙完更新QQ

  • @lyh4687
    @lyh4687 25 วันที่ผ่านมา

    期待更多關於爬蟲相關的知識! 萬分感謝

  • @jackwongbmw
    @jackwongbmw 5 หลายเดือนก่อน +1

    我還在煩怎樣自動化排程, TH-cam 就幫我介紹你這影片了, 太神了

  • @ChangYenTi
    @ChangYenTi 9 หลายเดือนก่อน +3

    大師!
    想請問6:53的那種一次修改多行的方法該如何使用
    希望多學一點小技巧

    • @ntitcsie
      @ntitcsie 8 หลายเดือนก่อน

      卡一個 我也想知道

    • @recode-0
      @recode-0  8 หลายเดือนก่อน +3

      喔喔 這個就是vscode 的預設快捷鍵
      按住Shift+alt+滑鼠點
      他會一次focus 一整排

    • @Chang-vk4yk
      @Chang-vk4yk 4 หลายเดือนก่อน

      @@recode-0 那個一次選擇所有:是怎麽做到的?

  • @王大為
    @王大為 10 หลายเดือนก่อน

    這是我看過最完整的實務爬蟲教學
    從伺服器request到proxy 大隊最後自動化排程應有盡有

    • @recode-0
      @recode-0  8 หลายเดือนก่อน

      以前玩的心路歷程😂

  • @郭梓坤
    @郭梓坤 2 หลายเดือนก่อน

    感谢您的视频,还会继续更新吗

  • @phonedr.1013
    @phonedr.1013 10 หลายเดือนก่อน +1

    求未來做一些前端逆向的影片,這種進階的爬蟲台灣完全沒人做,只會爬一些基礎的😂
    然候想請問我想拿我自己的餅乾做永久登入 是有可能的嗎 (網站會讓你可能幾小時後自動登出) 希望能找實例示範相關知識
    太愛了 已訂閱👍👍 必須一生推

    • @recode-0
      @recode-0  9 หลายเดือนก่อน +1

      沒有辦法喔 哈哈
      伺服器發給你 cookie 的時候,上面會紀錄加密的 expired time 。你給他認證的時候會檢查,如果時間過了就算失效。所以永不永久是伺服器端說的算,如果伺服器端願意給你無期限的那就可以~

    • @usewrond7873
      @usewrond7873 6 หลายเดือนก่อน

      往網站漏洞方向做吧..

    • @recode-0
      @recode-0  6 หลายเดือนก่อน

      好像可以 😂

  • @MarkDog0410
    @MarkDog0410 ปีที่แล้ว +1

    講解得有夠清楚,跪著附上我的一鍵
    三連

  • @allenhung4390
    @allenhung4390 ปีที่แล้ว +1

    感謝講解,學到很多東西

  • @yungshenchen258
    @yungshenchen258 ปีที่แล้ว +1

    可以補充一些連接API的教學嗎
    回覆

    • @recode-0
      @recode-0  ปีที่แล้ว +1

      Hmm … 雖然每個網站都不太一樣
      不過其實就是發個 Request 拿需要的資料
      然後處理 json 或是 XML 之類的@@
      感覺好像還好@@
      我稍微留意一下還有什麼能講
      讓我考慮一下 XDD

  • @acechocolate7081
    @acechocolate7081 3 หลายเดือนก่อน

    乾貨~巨乾~謝謝頻道主❤

  • @小葦-h2x
    @小葦-h2x ปีที่แล้ว +1

    如果可以介紹一下使用API的方式一定很棒

    • @recode-0
      @recode-0  ปีที่แล้ว

      API 感覺能說的比較少QQ
      因為就是發 Request 去拿需要的資料回來 XD
      有看到相關的題材的話 ,我再搜集一下吧~~ 看能不能出個一部ww

  • @chengc8055
    @chengc8055 9 หลายเดือนก่อน

    请问一下,图片服务器的图片怎么爬,因为有防爬,目前我只能模拟手动下载,但效率不高也不方便操作

    • @recode-0
      @recode-0  8 หลายเดือนก่อน

      最簡單暴力的方式就是你怎麼看到那些圖片,你就寫程式模擬這個過程,自然也一定能看到圖片,那你就可以抓下來了
      有些網站防爬蟲做的很徹底,真的就會讓爬蟲很沒效率,慢到覺得不如付費好了XDDD
      如果複雜度太高我會選擇爬其他來源😂

  • @junkels
    @junkels 26 วันที่ผ่านมา

    为啥有些加了proxy 就能会报错ERR_CONNECTION_RESET,如果开了全局代理就不会,但是开了全局代理 传递过去的proxy 就不生效了

    • @recode-0
      @recode-0  9 วันที่ผ่านมา

      可能要先確定要幫你 proxy 的 server 是不是真的會幫你轉發,也有可能server 早就關掉了

  • @oujunhao
    @oujunhao 11 หลายเดือนก่อน

    感谢讲解!学习到了很多东西!

  • @小幼的家
    @小幼的家 ปีที่แล้ว

    要怎麼用selenium套用cookie?

    • @recode-0
      @recode-0  ปีที่แล้ว

      Selenium 很方便,正常的點或輸入帳密送表單,他就會幫你記住 Cookie 資訊了,如果需要改的話,driver.add_cookie({"name": "key", "value": "value"}) 就能換成你要的值了

  • @4LMWhLphx
    @4LMWhLphx 2 หลายเดือนก่อน

    遇到驗証碼可以攔截他的封包直接回傳?我看高手是這樣,聽說叉邊球

    • @recode-0
      @recode-0  9 วันที่ผ่านมา

      是有這種的~ 有視障語音功能的,也可以直接語音轉文字後回傳(O

  • @DarkPrism
    @DarkPrism 6 หลายเดือนก่อน

    請問windows可以使用netcat 或是有其他方式可以實現確認傳了甚麼封包嗎

    • @recode-0
      @recode-0  4 หลายเดือนก่อน

      如果只是想確認封包,可以考慮裝 wireshark ,他分析得很透徹 xDD
      啊 Windows 可以使用 netcat 喔~ 我是安裝 nmap 之類的分析軟體,他裡面就會幫你偷偷裝好了 XD
      另外 Powershell 也有內建類似的功能,像是 Invoke-WebRequest 啥的,不過要先打開一些權限和防火牆才能被對方連到,語法我覺得很難記就不常用了,不然,你也可以試試看 Powercat 應該蠻多範例的~

  • @郝宗昕
    @郝宗昕 ปีที่แล้ว

    超級清楚明瞭,但是我要爬的東西 都有驗證碼 而且往往進去網址都不會變動,按旁邊的選單資料都塞在一個又一個的裡面,是不是要爬裡面資料的話,用RE就有困難,只能用selenium進去 一個一個點,一個一個頁面載

    • @recode-0
      @recode-0  ปีที่แล้ว +1

      是的@@ 聽起來好慘
      另一招是你可以打開網路或是原始碼看看他有沒有偷連 api ,有的話直接連過去看看、或是搜一下他的網域看能不能用別招找到你要的資料,不一定要正面爬
      真的只能爬的話,針對 可以試試看 driver.switchTo().frame(id or index) 跳進去 點完之後再 driver.switchTo().defaultContent() 或是 driver.switchTo().parentFrame() 出來,好像沒有其他方法@@
      希望有幫到你~ XDDD

  • @李睿-r3d
    @李睿-r3d 7 หลายเดือนก่อน

    您好,我想詢問一下,用seleium 我的Chrome會說,目前被被自動軟體控制,以至於不能登入帳好,想請問大師有甚麼解嗎

    • @recode-0
      @recode-0  7 หลายเดือนก่อน

      我的話會試試看自己事先登入,然後把 cookie 拔出來交給 Selenium 連線的時候夾著,這樣應該可以略過登入步驟~?

  • @qpzm71916
    @qpzm71916 หลายเดือนก่อน

    請問 , 網頁中選擇日期吐出來的資料
    如櫃買中心 , 上櫃每日收盤行情
    我去看 header 裡面的 Request URL
    複製後用 requests 去爬 , 跟網頁上看到的完全不同
    請問除了裝 Selenium 外 , 還可以只用 requests 撈資料嗎 , 謝謝 XD

    • @recode-0
      @recode-0  9 วันที่ผ่านมา

      理論上應該是可以,但還是要試試看不知道人家怎麼擋的@@
      可以找找看他有沒有API 可以抓,就不用爬網頁了

  • @AlanYU-d6z
    @AlanYU-d6z ปีที่แล้ว

    感謝!講解的簡單明了,希望有機會可以用一個實際爬蟲案例介紹

    • @recode-0
      @recode-0  ปีที่แล้ว

      好哇~ 改天來爬個不會被吉的東西試試吧~
      會被吉的可能要等我可以開通會員頻道再放🙃

    • @evangeline3485id
      @evangeline3485id ปีที่แล้ว

      @@recode-0加油加油,是不是快要可以開放超級感謝了😂

    • @recode-0
      @recode-0  ปีที่แล้ว

      沒 還有好長一段路要走😉
      YT 好嚴格🥲🥲

    • @香蕉船-f8k
      @香蕉船-f8k 7 หลายเดือนก่อน

      @@recode-0 請問可以爬爬看pinterest嗎,我爬上面的圖都失敗QQ,不知道公開爬會不會被吉

  • @tsait9538
    @tsait9538 8 หลายเดือนก่อน

    請問一下,你前面有提到cookie藏在電腦裡,那讓爬蟲讀取電腦裡的檔案可行嗎?

    • @recode-0
      @recode-0  8 หลายเดือนก่อน +1

      可 不過你要先解密才能用
      另外太久沒連的網站有可能會過期喔~

  • @justinwu6931
    @justinwu6931 6 หลายเดือนก่อน

    請問如果對方使用 cloudflare 服務怎麼辦?

    • @recode-0
      @recode-0  6 หลายเดือนก่อน +1

      好像有一些開源的套件可以試試看(?
      cloudscraper之類的,不確定有沒有,因為我也沒試過😂

  • @0.o593
    @0.o593 ปีที่แล้ว

    想請問遇到cloudflare 怎麼過,用selenium 或request 都會被擋

    • @recode-0
      @recode-0  ปีที่แล้ว +2

      雖然不知道你想爬什麼,不過試試看cfscrape 怎麼樣~?

    • @0.o593
      @0.o593 ปีที่แล้ว

      @@recode-0 感謝,我來研究看看試試

  • @kerhuangyu680
    @kerhuangyu680 7 หลายเดือนก่อน

    什麼時候會有captcha解析?

    • @recode-0
      @recode-0  6 หลายเดือนก่อน

      可能… 等我有會員功能(x
      不想被吉🥲

  • @agonglu7138
    @agonglu7138 9 หลายเดือนก่อน

    謝謝大大分享,學習很多,我遇到一個網站他是需要一個cookie,但是這個cookie還沒過期就會變,發現只要重整網頁十二次後cookie值就會變,像這種要如何知道他下一次的cookie值是什麼呢?

    • @recode-0
      @recode-0  8 หลายเดือนก่อน

      每個網站實作方式不一樣🥲
      如果沒加密的話啦,你可以去觀察他是什麼欄位
      啊,有時候網站只是用很爛的 base64編碼而已,你也可以試著解開來偷看他是什麼欄位在變
      如果知道規則就幫他裝好放回去,真的不行最暴力的就是每12次就重新送一次登入請求囉XD
      你可以從瀏覽器把curl資料拔出來,自己發request 夾帳號密碼過去給他,他就會給你新的cookie ,你再存下來就可以繼續多用12次了~

  • @ayahuang8307
    @ayahuang8307 ปีที่แล้ว

    跪求示範爬FB社團😭😭😭卡這個爬蟲卡了快兩年了🥲
    FB不知道用什麼巫術selenium爬抓不到貼文時間;又集Lazy Load、CSRF於一體,想用Request爬也卡到不行

    • @recode-0
      @recode-0  ปีที่แล้ว +1

      Facebook 幾乎全部CSS ID都模組化了 真的是很難爬 😂😂
      這次可以爬下次可能又換了,所以我的話會建議爬他的架構,至少不會每幾次連線就換了
      舉例來說,像是稍微看一下會發現,第一個有7個class 的 div 是 Title ,那有同樣class 內容或是結構差不多的人可能都是標題,裡面就會有名字和貼文時間之類的
      一些建議啦~我也沒爬過,但光想想就不是很想爬他🤣

  • @ninetydirectory3798
    @ninetydirectory3798 3 หลายเดือนก่อน

    請問會不小心爬一爬就爬去關了呢?

    • @recode-0
      @recode-0  3 หลายเดือนก่อน +1

      會喔 會怕的話
      爬之前可以問一下被爬的人XDD

    • @ninetydirectory3798
      @ninetydirectory3798 3 หลายเดือนก่อน

      @@recode-0 爬爆!怕爆

  • @a2414205
    @a2414205 8 หลายเดือนก่อน

    蝦皮 用request get方法 headers 全上了 還是403 有解嗎 要獲取商品資料的json

    • @recode-0
      @recode-0  7 หลายเดือนก่อน

      你的瀏覽器是看得到的嗎,如果可以應該不會這樣,可能有哪個欄位漏掉或是發出去的時候又被寫掉了?
      可以用 nc 聽個 port ,把 request 發給自己,檢查一下發出去的是不是對的,有沒有夾錯~?

    • @a2414205
      @a2414205 7 หลายเดือนก่อน +1

      @@recode-0 查了 必須JS逆向 才能拿到加密數據

  • @christinalai3485
    @christinalai3485 4 หลายเดือนก่อน

    非常厲害,佩服!

  • @RikkaTakanashi-w2v
    @RikkaTakanashi-w2v 7 หลายเดือนก่อน

    佬!强!催更!

  • @HamuraSho
    @HamuraSho 2 หลายเดือนก่อน

    怎麼不更新了QQ

  • @Jerry-et5uh
    @Jerry-et5uh 8 หลายเดือนก่อน

    我想问一下图片网站的url找不到怎么办

    • @recode-0
      @recode-0  7 หลายเดือนก่อน

      找不到的話你的瀏覽器應該也看不到 QQ
      看得到但是 URL 連過去卻沒有的話,可能是直接連線會被他擋掉,可以試試看從 selenium 拔出來

  • @SurfNordVPN
    @SurfNordVPN 10 หลายเดือนก่อน

    太優質了

  • @jerrybinGG
    @jerrybinGG 11 หลายเดือนก่อน

    前陣子在寫爬BOOKING後台的爬蟲,結果卡在驗證步驟,而驗證步驟只接受電話驗證,哭阿~原本就是要做自動化,結果還是需要人為介入,胎死腹中,呵呵,原本還想讓電腦串接電話看看,嘗試讓電腦去接電話,但似乎需要AI、機器學習之類的東西,礙於資源不足且專業知識沒到位,好想完成它啊QQ

    • @recode-0
      @recode-0  11 หลายเดือนก่อน +2

      簡訊認證好像有個smsForwarder 可以試試看(?
      iOS 我想到的是好像有個推播到Mac 的功能,不知道能不能再寫個程式監聽有人沒有推播進來 之類的XD

    • @Hijakiee
      @Hijakiee 4 หลายเดือนก่อน

      ​@@recode-0得买虚拟手机号😢

  • @Bongo-y8b
    @Bongo-y8b 2 หลายเดือนก่อน

    厲害

  • @mcgogo1984
    @mcgogo1984 ปีที่แล้ว

    我一直想要爬財經m平方的數據。之前好不容易有別的YTR介紹,結果卻收到財經m平方的警告信,雖然沒有違法,但是他覺得和平相處還是比較好,所以他還是下架該影片。而且他的code不知道為什麼也爬不到了。不知道財經m平方又改了什麼。
    另外,你的內容很有料,但是對初學者好難。希望會有更清楚的步驟版本。謝謝

    • @recode-0
      @recode-0  ปีที่แล้ว

      對方網站可能有小改一些id 或class 吧
      畢竟他也知道對方怎麼爬的 就改掉了😅😅
      看一下執行的錯誤訊息,他是什麼東西找不到把他對應回去應該就會動了!
      站在工程師的立場,應該不會為了某爬蟲大改架構才是www

  • @NoelChang-ex4ng
    @NoelChang-ex4ng ปีที่แล้ว

    謝謝!若有講得更細的要開放會員制定我也想訂閱 🥹🥹大神!學到好多,收下我的膝蓋 😎

    • @recode-0
      @recode-0  ปีที่แล้ว

      噢噢噢 謝謝支持🥺

  • @星氣集
    @星氣集 ปีที่แล้ว

    佬 你太厲害了

    • @recode-0
      @recode-0  ปีที่แล้ว +1

      謝謝🥹

  • @iammatrix412
    @iammatrix412 4 หลายเดือนก่อน

    能請您幫我寫爬蟲程式嗎

    • @recode-0
      @recode-0  4 หลายเดือนก่อน

      推薦用ChatGPT ,他可以幫你😂

  • @kerhuangyu680
    @kerhuangyu680 11 หลายเดือนก่อน

    很久沒更新了

    • @recode-0
      @recode-0  11 หลายเดือนก่อน

      確實😢

  • @sakasky
    @sakasky ปีที่แล้ว

    謝謝分享,已訂閱

  • @modseven
    @modseven ปีที่แล้ว

    感謝大大

  • @Yuze408
    @Yuze408 3 หลายเดือนก่อน +1

    不是啊,一年了,人不見了啦

    • @recode-0
      @recode-0  3 หลายเดือนก่อน

      時間過的好快🥲

  • @terryterry8999
    @terryterry8999 ปีที่แล้ว

    請收下我的膝蓋

    • @recode-0
      @recode-0  ปีที่แล้ว

      感謝支持🥹

  • @韩晓熙-w8i
    @韩晓熙-w8i ปีที่แล้ว

    那些赌博网站能弄吗

    • @recode-0
      @recode-0  ปีที่แล้ว

      你能連到的話 一定行(O

  • @htchd0211
    @htchd0211 10 หลายเดือนก่อน

    👍

  • @楊冠曾
    @楊冠曾 5 หลายเดือนก่อน

    讚,亂爬文