- 23
- 57 607
Re:code - 從零開始摳
Taiwan
เข้าร่วมเมื่อ 5 ธ.ค. 2022
歡迎來到我的頻道! 這是一個分享我當初寫程式遇到的各種坑的頻道!
內容可能包含一些演算法、網站小知識、資訊安全、寫程式技巧、網站架設等相關主題,反正就是,我碰過什麼或是想做什麼就做,但主要還是會跟程式人的學習有關啦。我想把那些痛苦往事,或是有趣的東西,學過的東西,蒐集起來製作成優質影片提供給大家,無論你是對網站開發有興趣的新手,還是已經有一定經驗的專業人士,我相信多多少少能為你提供有價值的資訊和技巧。
喜歡的話也歡迎你訂閱我的頻道,也可以推薦我要講什麼主題,以前打 CTF 打的很入魔,好多奇怪的東西以前多多少少都有摸到,應該也是有東西分享啦,只是做影片有點辛苦所以更新有點慢,請見諒 QQ
可以的話,都看完了 ... 訂閱一下再走吧 XDD
內容可能包含一些演算法、網站小知識、資訊安全、寫程式技巧、網站架設等相關主題,反正就是,我碰過什麼或是想做什麼就做,但主要還是會跟程式人的學習有關啦。我想把那些痛苦往事,或是有趣的東西,學過的東西,蒐集起來製作成優質影片提供給大家,無論你是對網站開發有興趣的新手,還是已經有一定經驗的專業人士,我相信多多少少能為你提供有價值的資訊和技巧。
喜歡的話也歡迎你訂閱我的頻道,也可以推薦我要講什麼主題,以前打 CTF 打的很入魔,好多奇怪的東西以前多多少少都有摸到,應該也是有東西分享啦,只是做影片有點辛苦所以更新有點慢,請見諒 QQ
可以的話,都看完了 ... 訂閱一下再走吧 XDD
Python 爬蟲高級技巧:突破網路防護、模仿瀏覽器、使用 Cookie 與每日自動化排程全攻略 | 成為爬蟲王 (‧o‧) (‧o‧) (‧o‧)
上一部影片說了,了解運作原理之後,基本上只要能在瀏覽器出現的東西,一定可以用程式爬回來,因為對方不會知道你是機器人還是真人,但要怎麼做呢?今天這部影片就會教你一些爬蟲的小撇部,在這個約 15 分鐘的影片中,我們將會探討從基礎到進階的多種爬蟲技巧,逐步引領各位深入爬蟲的世界。
第一招:改變 HTTP Header 資訊,這是一個讓您能夠模仿瀏覽器行為,從而能更有效地抓取網站數據的重要步驟。接著,我們會深入探討如何使用 Cookie 進行登入,還有 Cookie 的安全性,最後讓您能夠爬取需要登入才能訪問的網站。但是,僅僅模仿瀏覽器並不足夠。許多現代網站會使用 CSRF Token 來增加安全性,影片也會稍微提及如何正確地處理這些 Token,以順利完成登入過程。
第二招:我們會講解如何使用 Proxy 服務來更改 IP 地址。這對於避免 IP 被封鎖或實現地區性內容存取非常有用。另外可能會遇到的是 CAPTCHA 機器人驗證,這個可能就不提了,不然講不完 XD
第三招:執行 JavaScript ,雖然上一支影片有提到,但有小夥伴敲碗想要爬 flaticon,所以我就再補充一下吧,但可惜我爬到 icon8 ,抱歉... 但我實在懶的重拍,反正他們長很像,原諒我吧 XDD
關於 CAPTCHA 有很多不同的形式,可以選擇簡單的方式來進行,例如Google 的 Captcha 有語音版,比起人都看不清楚的圖片,播放語音後進行語音辨識會比較簡單選出正確答案,這邊就是一個突破口,其他就見超拆招吧~~
最後,這個影片會提到如何使用系統排程工具(例如 crontab 或 Windows 排程工作)來實現每天的自動化爬蟲任務。這樣,您就可以設定您的爬蟲在特定時間自動運行,不再需要人工執行。
總之,這部影片涵蓋了 Python 爬蟲的多個方面,從基本操作到進階技巧都有所包含。無論您是爬蟲新手,還是有一定經驗的開發者,都能從這個影片中獲得寶貴的知識和實踐經驗。
如果你覺得這個影片有幫助,請幫我點個讚,並分享給你的朋友。
內容概要:
00:00 開場白
00:38 爬蟲與瀏覽器的差異
02:00 偽裝成瀏覽器
03:03 Cookie?
05:12 夾帶 Cookie 跳過登入步驟
07:16 CSRF Token 怎麼處理
08:18 IP 被禁止 ?!
08:48 Proxy 代理伺服器
10:02 實作問題分享 - 動態載入畫面怎麼爬
11:48 CAPTCHA
12:02 自動化排程 Windows 工作
13:40 自動化排程 - crontab
希望我的影片,新手可以吸收,老手也有能從裡面學到些什麼東西
如果看完這部影片對你有所幫助,希望你可以幫忙:
1. 訂閱我的頻道
2. 給這部影片點讚
3. 如果你覺得有趣,也希望你可以分享出去
4. 有什麼問題或希望我做影片的,歡迎留言給我, 我一定盡量回覆
Icon resource - Icons8: icons8.com/icons
第一招:改變 HTTP Header 資訊,這是一個讓您能夠模仿瀏覽器行為,從而能更有效地抓取網站數據的重要步驟。接著,我們會深入探討如何使用 Cookie 進行登入,還有 Cookie 的安全性,最後讓您能夠爬取需要登入才能訪問的網站。但是,僅僅模仿瀏覽器並不足夠。許多現代網站會使用 CSRF Token 來增加安全性,影片也會稍微提及如何正確地處理這些 Token,以順利完成登入過程。
第二招:我們會講解如何使用 Proxy 服務來更改 IP 地址。這對於避免 IP 被封鎖或實現地區性內容存取非常有用。另外可能會遇到的是 CAPTCHA 機器人驗證,這個可能就不提了,不然講不完 XD
第三招:執行 JavaScript ,雖然上一支影片有提到,但有小夥伴敲碗想要爬 flaticon,所以我就再補充一下吧,但可惜我爬到 icon8 ,抱歉... 但我實在懶的重拍,反正他們長很像,原諒我吧 XDD
關於 CAPTCHA 有很多不同的形式,可以選擇簡單的方式來進行,例如Google 的 Captcha 有語音版,比起人都看不清楚的圖片,播放語音後進行語音辨識會比較簡單選出正確答案,這邊就是一個突破口,其他就見超拆招吧~~
最後,這個影片會提到如何使用系統排程工具(例如 crontab 或 Windows 排程工作)來實現每天的自動化爬蟲任務。這樣,您就可以設定您的爬蟲在特定時間自動運行,不再需要人工執行。
總之,這部影片涵蓋了 Python 爬蟲的多個方面,從基本操作到進階技巧都有所包含。無論您是爬蟲新手,還是有一定經驗的開發者,都能從這個影片中獲得寶貴的知識和實踐經驗。
如果你覺得這個影片有幫助,請幫我點個讚,並分享給你的朋友。
內容概要:
00:00 開場白
00:38 爬蟲與瀏覽器的差異
02:00 偽裝成瀏覽器
03:03 Cookie?
05:12 夾帶 Cookie 跳過登入步驟
07:16 CSRF Token 怎麼處理
08:18 IP 被禁止 ?!
08:48 Proxy 代理伺服器
10:02 實作問題分享 - 動態載入畫面怎麼爬
11:48 CAPTCHA
12:02 自動化排程 Windows 工作
13:40 自動化排程 - crontab
希望我的影片,新手可以吸收,老手也有能從裡面學到些什麼東西
如果看完這部影片對你有所幫助,希望你可以幫忙:
1. 訂閱我的頻道
2. 給這部影片點讚
3. 如果你覺得有趣,也希望你可以分享出去
4. 有什麼問題或希望我做影片的,歡迎留言給我, 我一定盡量回覆
Icon resource - Icons8: icons8.com/icons
มุมมอง: 19 535
วีดีโอ
演算法 - Quick Sort | 比較快但要靠賽排序方法 1.0 - 快速排序法
มุมมอง 2.3K10 หลายเดือนก่อน
QuickSort,又被稱為快速排序,是一種十分強大且高效的排序演算法,其核心理念是分治策略。這種算法適用於中大型數據集,且其平均時間複雜度為 O(n logn)。如果你想要為你的程式碼加入一個快速且可靠的排序功能,那麼了解並學習 QuickSort 是一個絕佳的選擇。在這個影片裡,我會清楚地示範快速排序的實現過程,讓新手也能深入理解這個強大的算法。 QuickSort 的運作方式是透過選取一個元素作為基準點(Pivot),然後將其他元素分為兩個子陣列:一個含有比基準點小的元素,另一個含有比基準點大的元素。然後,我們對這兩個子陣列進行同樣的操作,直到整個數列有序。這種「分而治之」的方法讓 QuickSort 成為一個高效且可靠的排序演算法。 雖然在最壞的情況下,QuickSort 的時間複雜度可能達到 O(n^2),但這只會在極為罕見的情況下發生,例如當數據已經排序或者幾乎排序的情況...
輸入網址,然後呢? 瀏覽器收到網址後,到底發生什麼事? | HTTP、TCP、IP 之間如何運作?三向交握是什麼鬼?Domain Name 與 DNS 的關係?
มุมมอง 4.2K11 หลายเดือนก่อน
在這部影片中,我們將介紹瀏覽器在你輸入網址之後到收到回應的這整個過程中,到底發生了哪些事情。 從你在網址列輸入網址開始,瀏覽器是如何幫你去尋找資源,HTTP 請求是什麼?TCP 是如何運作、如何確保網路通訊的穩定性,不會掉包斷線?以及其他種種元素,是如何在背後默默地運作,瞭解他們協同完成我們的網路需求的整個過程。對於 何網路使用者來說,這是一個了解我們日常網路活動背後運作機制的好機會。 雖然一開始有想詳細介紹 OSI Model 之類的東西,還有像IP 層資料連結層之類的,不過一方面怕講太深別人不想看,另一方面就是 … 影片做得好累 XDDD 之後有人問我再來做影片聊聊吧 希望你們喜歡這部影片,記得告訴我喜不喜歡,如果有 何問題或建議,也歡迎留言告訴我,各位的回覆可以支持我繼續做影片,好久沒更新,但陸陸續續還是有人訂閱和留言就覺得很感動,於是我就回來了 … QwQ ... 假的,...
ChatGPT 釣魚網站揭秘:教你從源頭看穿網路詐騙 | 揭開釣魚網站製作過程,進入內幕,讓你自然看穿網路陷阱!
มุมมอง 2.7Kปีที่แล้ว
Security Research Ducktail - labs.withsecure.com/content/dam/labs/docs/WithSecure_Research_DUCKTAIL.pdf 這支影片會探討近期不斷增多的釣魚網站問題 我會一步步剖析市面上釣魚網站的製作方式,從網站設計、模仿技巧到欺詐行為, 讓大家能夠更深入了解這些網站是如何誘騙無辜網民的。 此外,我們還將分享一些實用的防範技巧,教大家如何在網路世界中保護自己的個人資訊和隱私。 本影片適合所有對網路安全感興趣的觀眾,無論你是網路新手還是資深網民,都能從中獲得寶貴的防範知識。通過了解釣魚網站的運作原理和防範方法,我們希望能提高大家的網路安全意識,降低成為網路詐騙受害者的風險。 在觀看本影片之後,你將能更自信地應對網路安全挑戰,學會如何在網路世界中保護自己,避免受到釣魚網站的侵害。所以,不要錯過這個機會,現...
演算法 - Bubble Sort | 學習簡單排序演算法的好起點,無用排序 NO.1 - 氣泡排序法
มุมมอง 1.5Kปีที่แล้ว
Bubble Sort 雖然不是最快的排序算法,但它是一個最基礎和易於理解的排序算法。這個算法很適合初學者學習,並且可以用來展示排序算法的基本概念,例如比較、交換、迭代等等。此外,Bubble Sort 也有一些實際應用,例如排序小數據集、教學演示等等。因此,如果您想學習排序算法或想要為您的程式碼添加排序功能,了解 Bubble Sort 是一個很好的起點。這支個影片,可以清晰地展示 Bubble Sort 的實現過程,從而幫助初學者學習這個算法。 Bubble sort,也稱為氣泡排序,是一種很簡單直觀的排序演算法。它通過比較相鄰兩個元素的大小,不斷交換順序錯誤的元素,直到整個序列有序為止。 他的時間複雜度為 O(n^2),其中 n 是列表的長度。這是因為 Bubble sort 的核心操作是兩兩比較元素,並在需要時進行交換,需要進行 O(n^2) 次操作才能完成整個排序過程。而空...
十分鐘小魔法 - 不需要寫程式也不用花錢,10 分鐘架設出專屬於自己的部落格,建立個人品牌 | 使用 Hexo + GitHub
มุมมอง 3.1Kปีที่แล้ว
十分鐘小魔法 - 不需要寫程式也不用花錢,10 分鐘架設出專屬於自己的部落格,建立個人品牌 | 使用 Hexo GitHub
Python 應用 - 爬蟲篇 part1 | 看的到怎麼可能爬不回來!?賽馬娘通通跟我回家 ( 有 CC 字幕了 !! )
มุมมอง 14Kปีที่แล้ว
Python 應用 - 爬蟲篇 part1 | 看的到怎麼可能爬不回來!?賽馬娘通通跟我回家 ( 有 CC 字幕了 !! )
Python 入門 EP6 - For 迴圈, While 迴圈怎麼用?| 把電腦變成你的工人,自動化處理所有的事情!
มุมมอง 1.2Kปีที่แล้ว
Python 入門 EP6 - For 迴圈, While 迴圈怎麼用?| 把電腦變成你的工人,自動化處理所有的事情!
Python 入門 EP5 - def 自訂函式、引用函氏、模組 | 重複的東西我們做一次就好,把一拖拉庫的事情打包成一個函式
มุมมอง 909ปีที่แล้ว
Python 入門 EP5 - def 自訂函式、引用函氏、模組 | 重複的東西我們做一次就好,把一拖拉庫的事情打包成一個函式
Python 入門 EP4 - If-else 邏輯判斷式 | 教程式判斷什麼該做什麼不該做
มุมมอง 390ปีที่แล้ว
Python 入門 EP4 - If-else 邏輯判斷式 | 教程式判斷什麼該做什麼不該做
Python 入門 EP3 - 算術、位元、邏輯... 各種運算子 !!! | 讓你的資料活起來 ( 有 CC 字幕了 !! )
มุมมอง 782ปีที่แล้ว
Python 入門 EP3 - 算術、位元、邏輯... 各種運算子 !!! | 讓你的資料活起來 ( 有 CC 字幕了 !! )
Python 入門 EP2 - 變數、資料型別 | 讓 Python 把資料帶著走 ( 有 CC 字幕了 !! )
มุมมอง 1.3Kปีที่แล้ว
Python 入門 EP2 - 變數、資料型別 | 讓 Python 把資料帶著走 ( 有 CC 字幕了 !! )
Python 入門 EP1 - 寫 Code 環境安裝 | 學了 Python 然後呢? 如何脫離新手村?
มุมมอง 1.8Kปีที่แล้ว
Python 入門 EP1 - 寫 Code 環境安裝 | 學了 Python 然後呢? 如何脫離新手村?
這可能是我見過最好的教學了,我照著其他網路上的人教學去做 都卡在無法部屬的情況下 這些文章的作者大概真的文筆不好吧?教學這麼不清不楚
謝謝支持 🙏 可能是版本更新了,文章已經年久失修XDD 畢竟網站一直在更新嘛🫠
佬!强!催更!
什麼時候會有captcha解析?
可能… 等我有會員功能(x 不想被吉🥲
謝謝 : )
5:20 開始,請問「同時對多個結構相同的元素 "進行相同的編輯" 」是用什麼套件達成的啊? 有時候會看到程式開發的youtuber在用,卻不知如何用它
在vscode 選著一個字,按 Ctrl+L 就可以同時把相同的字抓住囉! (搜尋列要在清空的情況下)
請問…iPad 有沒有可能用來安裝hexo?
能拿到 shell 的話應該可以 🫠
不好意思 這種問題不知道該去哪問比較好XD 我想爬自己基富通裡面的基金資料,但我直接卡在夾帶cookie讓他跳過簡訊驗證 我也研究了好幾天QQ 也看了好多ASP.NET_SessionId的資料 始終不知道問題出在哪
老師您好 我再下載插件就遇到問題,無法下載The editor could not be opened due to an unexpected error: XHR failed 這樣顯示
看起來是載不到套件?有很多種原因QQ 感覺可能是有些網路供應商會把套件 ban 掉,把關鍵字丟上 google 可以找到一些解法,去設定改一下 proxy 試試吧~
@@recode-0 非常感謝! 改 proxy 方法 我測試無數次 晚點來直接利用瀏覽器下載插件給他安裝
我好像是左邊圖片都出現不了,不知道具體是啥原因
您好,我想詢問一下,用seleium 我的Chrome會說,目前被被自動軟體控制,以至於不能登入帳好,想請問大師有甚麼解嗎
我的話會試試看自己事先登入,然後把 cookie 拔出來交給 Selenium 連線的時候夾著,這樣應該可以略過登入步驟~?
我明明有下載Beautifulsoup和bs4還是一直有 from bs4 import Beautifulsoup ModuleNotFoundError: No module named 'bs4'
我想问一下图片网站的url找不到怎么办
找不到的話你的瀏覽器應該也看不到 QQ 看得到但是 URL 連過去卻沒有的話,可能是直接連線會被他擋掉,可以試試看從 selenium 拔出來
可以問怎麼即時顯示記憶體用量?
你是說現在電腦的記憶體用量,還是單一隻程式的? Linux 我都用htop 看(? Windows 工作管理員XD --- 程式的話我是用 psutil 這個套件,用法估狗一下應該蠻多教學的~ 也是有其他套件啦~ 都可以試試看 找你喜歡的
玩Hexo都是geek
毛毛最近都沒出影片了 敲碗期待新片!!
🥹🥹🥹
讚喔!可以做些遊戲的設計 像最後那些其實蠻有趣的~
下禮拜期中!太感謝!!
好感動,謝謝你的教學 > <
謝謝~
請問老師,2:50秒,1.我要怎麼連上小網頁? 2.那隻雞的圖檔要放在哪邊?
1. 伺服器開起來後,底下的狀態他會跟你說開在哪。再打開瀏覽器連過去 (沒意外應該在localhost:8000 ) 2. 你路徑設定哪裡就放哪,假設你伺服器開在桌面,那你桌面就放一個 chicken.png,路徑是 ./chicken.png。如果圖片放在 abc 的資料夾,那就要設定成 ./abc/chicken.png
請問一下,你前面有提到cookie藏在電腦裡,那讓爬蟲讀取電腦裡的檔案可行嗎?
可 不過你要先解密才能用 另外太久沒連的網站有可能會過期喔~
蝦皮 用request get方法 headers 全上了 還是403 有解嗎 要獲取商品資料的json
你的瀏覽器是看得到的嗎,如果可以應該不會這樣,可能有哪個欄位漏掉或是發出去的時候又被寫掉了? 可以用 nc 聽個 port ,把 request 發給自己,檢查一下發出去的是不是對的,有沒有夾錯~?
@@recode-0 查了 必須JS逆向 才能拿到加密數據
研究了一晚上怎麼佈署 結果看這影片真的十分鐘 喔不對 可能還不到十分鐘就解決佈署了!! 滿懷感恩的心感謝!!
最好的教程,在我掌握hexo的路上最好的教程之一😋
大大投影片用什麼做的啊? 動畫跟排版都很好看
我用Adobe系列認真捏出來的 ><
太強惹
謝謝大大分享,學習很多,我遇到一個網站他是需要一個cookie,但是這個cookie還沒過期就會變,發現只要重整網頁十二次後cookie值就會變,像這種要如何知道他下一次的cookie值是什麼呢?
每個網站實作方式不一樣🥲 如果沒加密的話啦,你可以去觀察他是什麼欄位 啊,有時候網站只是用很爛的 base64編碼而已,你也可以試著解開來偷看他是什麼欄位在變 如果知道規則就幫他裝好放回去,真的不行最暴力的就是每12次就重新送一次登入請求囉XD 你可以從瀏覽器把curl資料拔出來,自己發request 夾帳號密碼過去給他,他就會給你新的cookie ,你再存下來就可以繼續多用12次了~
講得真好 支持個
講解得很詳細,易懂又生動,已經訂閱了,大推! 請問是用什麼工具做的影片呢?
我都用Adobe 系列自己手動努力捏😂
大師! 想請問6:53的那種一次修改多行的方法該如何使用 希望多學一點小技巧
卡一個 我也想知道
喔喔 這個就是vscode 的預設快捷鍵 按住Shift+alt+滑鼠點 他會一次focus 一整排
我竟然看完6集了 love
请问一下,图片服务器的图片怎么爬,因为有防爬,目前我只能模拟手动下载,但效率不高也不方便操作
最簡單暴力的方式就是你怎麼看到那些圖片,你就寫程式模擬這個過程,自然也一定能看到圖片,那你就可以抓下來了 有些網站防爬蟲做的很徹底,真的就會讓爬蟲很沒效率,慢到覺得不如付費好了XDDD 如果複雜度太高我會選擇爬其他來源😂
說認真的 你講得很好,期待更多教學
謝謝支持~ 好久沒更了 最近有覺得該復活一下了🥺
看過一堆文章 只有看完你的影片想馬上試試看 真的謝謝
謝謝支持🥺🥺
希望之後出直接打api 甚至逆向的!謝謝🙏
好的~納入考慮🤔
求未來做一些前端逆向的影片,這種進階的爬蟲台灣完全沒人做,只會爬一些基礎的😂 然候想請問我想拿我自己的餅乾做永久登入 是有可能的嗎 (網站會讓你可能幾小時後自動登出) 希望能找實例示範相關知識 太愛了 已訂閱👍👍 必須一生推
沒有辦法喔 哈哈 伺服器發給你 cookie 的時候,上面會紀錄加密的 expired time 。你給他認證的時候會檢查,如果時間過了就算失效。所以永不永久是伺服器端說的算,如果伺服器端願意給你無期限的那就可以~
往網站漏洞方向做吧..
好像可以 😂
大大看起來前後端都懂,好牛 重點是剪輯也好看 影片故事性也很強 知識點也都有帶到而不是跳過 甚至有趣味性 天啊我必須留言愛心❤ 真的好強 甚至超越大陸那邊的影片 而且第一次看到有人示範釣魚網站 超有趣欸😂 上癮了
👍
太優質了
這是我看過最完整的實務爬蟲教學 從伺服器request到proxy 大隊最後自動化排程應有盡有
以前玩的心路歷程😂
只能中午看 因为早晚会红
請問一下,什麼快速鍵可以讓該行變成註解(前面加上#)
我是用vscode: 按Ctrl + / 就可以把匡起來的部分通通註解掉喔
@@recode-0 謝謝,請繼續推出更多python相關影片
很久沒更新了
確實😢
前陣子在寫爬BOOKING後台的爬蟲,結果卡在驗證步驟,而驗證步驟只接受電話驗證,哭阿~原本就是要做自動化,結果還是需要人為介入,胎死腹中,呵呵,原本還想讓電腦串接電話看看,嘗試讓電腦去接電話,但似乎需要AI、機器學習之類的東西,礙於資源不足且專業知識沒到位,好想完成它啊QQ
簡訊認證好像有個smsForwarder 可以試試看(? iOS 我想到的是好像有個推播到Mac 的功能,不知道能不能再寫個程式監聽有人沒有推播進來 之類的XD
9:54 請問如果讓爬蟲去點選第二頁按鈕或是下一頁按鈕會不會更有效率?
我印象中,他不在畫面上會跳出不能點的錯誤,會需要先滾到讓他在畫面上再點(有API) 當初只是想說用 for loop 就搞定了,可以省去找API 名字這件事 (# 但我的話應該會去點下一頁,這樣可以少去考慮到底有幾頁這件事XD
感谢讲解!学习到了很多东西!
❤多謝分享,很實用
hen 實用
用馬兒解說讓我對爬蟲都有動力了!!
請問5:40三行同時操作是怎麼做的
Vscode 的小功能 1. 按住 alt + 滑鼠點 2. 選著你想一起改的東西,按 CTRL + L
那些赌博网站能弄吗
你能連到的話 一定行(O
優質頻道
謝謝支持🙏