Chi tiết cách login và crawl dữ liệu từ Facebook bằng Python - Mì AI

Mì AI

มุมมอง 71 728

เพิ่มลงใน
- เพลย์ลิสต์ของฉัน
- ดูภายหลัง
แชร์

แชร์

ฝัง

ขนาดวิดีโอ:

แสดงแผงควบคุมโปรแกรมเล่น

เล่นอัตโนมัติ

เล่นใหม่

เผยแพร่เมื่อ 8 ม.ค. 2025

ความคิดเห็น • 213

@dungtrung4618 3 ปีที่แล้ว ⁺⁸
e nói thật video a dễ hiểu thật ý. Mong a ra nhiều video code về fb hơn để mọi người cùng học hỏi
3 ปีที่แล้ว ⁺¹
Cảm ơn em. Anh sẽ cố gắng ra nhiều nhé!
@pduyet97 3 ปีที่แล้ว ⁺³
đang từ took khác chuyển sang học selenium chưa biết từ đâu tự nhiên thấy video này..dễ hiểu :v..like a
3 ปีที่แล้ว ⁺¹
Hihi thanks bạn nhiều nhiều nhé!
@nguyenvan1878 11 หลายเดือนก่อน ⁺¹
quá tuyệt vời
cảm ơn bạn đã chia sẽ
11 หลายเดือนก่อน
Cảm ơn bạn đã ủng hộ nha. Cần thêm thì bạn post lên Nhóm "Hội anh em thích ăn Mì AI" - facebook.com/groups/miaigroup nhé!
@vinhngo5546 3 ปีที่แล้ว ⁺¹
video rất bổ ịch, cảm ơn anh.
3 ปีที่แล้ว
Cảm ơn bạn.
Cần thêm gì post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup cho tiện nha!
@KuBjn2210 4 ปีที่แล้ว ⁺²
Hay quá anh ơi! Không biết mình có thể áp dụng cách này để nuôi nick clone facebook không a?
4 ปีที่แล้ว ⁺¹
Hihi hoàn toàn được em :D
@bactran7799 4 ปีที่แล้ว ⁺¹
cảm ơn anh, rất chi tiết và dễ hiểu
4 ปีที่แล้ว
Thanks bạn ủng hộ nha :D
@thanhnamnguyen530 4 ปีที่แล้ว ⁺¹
Cảm ơn anh đã chia sẻ, anh hướng dẫn thêm phần craw data từ phần quảng cáo fb về đi ạ :))
4 ปีที่แล้ว
Haha anh không làm ads nên ko rõ nó có khác gì với phần khác ko?
@thanhnamnguyen530 4 ปีที่แล้ว
@ Dữ liệu quảng cáo có cả về hành vi và nhân khẩu học a ạ. Mình có thể lấy qua API , vấn đề là chưa biết lấy về thế nào
:))
@VinhNguyen-lb1ux 3 ปีที่แล้ว ⁺¹
Hay quá bác ơi
3 ปีที่แล้ว
Thanks bạn ủng hộ nha!
@hoangtuyen2000 4 ปีที่แล้ว ⁺¹
Tuyệt vời thầy ơi
4 ปีที่แล้ว
Cảm ơn em nhiều!
@dj_arimakousei 7 หลายเดือนก่อน ⁺¹
đoạn 36:00 a lấy class của một bạn Vi Huỳnh mà sao lúc in lại in dc tất cả vậy ạ, mỗi user 1 class chứ nhỉ
7 หลายเดือนก่อน
Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup kèm ảnh chụp xem nhé!
@PA_Offical 2 ปีที่แล้ว ⁺¹
Bác Mì AI ơi thời điểm hiện tại selenium đã lỗi thời không dùng được nữa bác làm thêm bài khác hướng dẫn với
2 ปีที่แล้ว
Úi mình vẫn hàng ngày dùng Selenium để lấy dữ liệu chứng khoán mà. Nó lỗi thời như nào thế? Bạn chia sẻ rõ hơn được không?
@DucTran-gp4cm 2 หลายเดือนก่อน ⁺¹
anh có thể hướng dẫn crawl tin nhắn chat trong group zalo được không ạ?
2 หลายเดือนก่อน
Mình lại chưa làm món này. Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup cho tiện trao đổi nhé!
@misachanneloffical628 3 ปีที่แล้ว ⁺¹
Ví dụ lấy trường thông tinh tên, địa chỉ, like page từ 1 list các link fb vào cùng 1 sheet excel thì lm thế nào
3 ปีที่แล้ว
Thì đầu tiên em mở từng link, lấy info rồi dùng lệnh write excel.
Welcome em. Share và đăng ký kênh ủng hộ a nha!
@duonggg1481 3 ปีที่แล้ว ⁺¹
hay quá chú ơi cảm ơn chú chú cho cháu hỏi là win 7 không có terminal thì làm sao ạ
3 ปีที่แล้ว
Thì cháu dùng Command Line!
@duonggg1481 3 ปีที่แล้ว
@ dạ chú
@ha_nguyen_146 2 ปีที่แล้ว ⁺¹
cháu cảm ơn chú rất nhiều ạ
2 ปีที่แล้ว ⁺¹
Yeah rất vui vì giúp được cháu nhé!
@duonghuy5740 7 หลายเดือนก่อน ⁺¹
dễ hiểu, đã +1 sub cho a, cảm ơn a.
7 หลายเดือนก่อน ⁺¹
Cảm ơn em. Cần thêm gì cứ lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
8 หลายเดือนก่อน ⁺¹
nay em mới tình cờ xem được video của anh, nhưng hình như selenium cập nhật lại toàn bộ function rồi hay sao ấy ạ? Ví dụ như find_element_by_id
8 หลายเดือนก่อน
Đúng rồi em. Giờ nó dùng chung 1 hàm find và change value type bên trong. Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup trao đổi thêm nếu cần nhé!
@longhoangngoc2829 3 ปีที่แล้ว ⁺¹
Anh ơi! Em muốn crawl comment xong thì đánh giá giá xem comment đấy thuộc dạng tích cực, tiêu cực hay trung tính thì anh có thể nói sơ qua cho em về cách làm không ạ?
3 ปีที่แล้ว
Đây em
miai.vn/2020/05/04/nlp-series-1-thu-lam-he-thong-danh-gia-san-pham-lazada/
@paolo3-nguyen 10 หลายเดือนก่อน ⁺¹
Dung implicit wait unti thay vi hard sleep 5 giay nhe ban
10 หลายเดือนก่อน ⁺¹
Chuẩn bạn. Thông thường trong các dự án thực tế mình cũng hay dùng wait. Chứ đôi khi 5 giây là ko đủ để nó load ra :D
@YouGG 4 ปีที่แล้ว ⁺¹
a ơi, e sử dụng facebook lite rồi, 11:57 mà nó ko điền thông tin ak
4 ปีที่แล้ว
Em chụp màn hình up lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup
xem nhé!
@checkmate8811 4 ปีที่แล้ว ⁺²
Anh ơi hình như FB đổi cách viết HTML rồi, em copy nguyên code của a chạy thử mà không crawl được nữa, anh có thể làm một video crawl mới được không ạ
4 ปีที่แล้ว
Facebook đã đổi giao diện. Nên có thể ko chạy đc đâu. Em phỉa viết lại code nhé
@solairenero5023 4 ปีที่แล้ว
alo bh bạn chạy được chưa ạ
@kaitoukuroba301 2 ปีที่แล้ว ⁺¹
@ em có viết lại code nhưng vẫn dính lỗi no such element, em thử khá nhiều dòng quanh quanh chỗ click bình luận nhưng vẫn không được ạ :( anh có gợi ý nào về dòng HTML có thể find_element không ạ?
2 ปีที่แล้ว
@@kaitoukuroba301 em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé
@randyluong6275 4 ปีที่แล้ว ⁺²
anh ơi, các variables như reaction (likes, heart,...) và sharing của comment có hiển thị ko a
4 ปีที่แล้ว ⁺²
Có hiện em ơi. Em giả lập 1 lệnh click vào nó sẽ hiện lên 1 cửa sổ mới. Trong đó có số lượng đó.
@vutruonguc8061 4 ปีที่แล้ว
hay quá anh ơi, cảm ơn anh
4 ปีที่แล้ว ⁺²
Yeah cảm ơn em ủng hộ nha!
@TranLamYoutube ปีที่แล้ว ⁺¹
Bữa giờ em vẫn đang tìm hiểu làm sao để có thể lấy danh sách bài viết trong 1 group liên tục, khi có 1 bài viết mới được cập nhật.
nếu dùng selenium thì phải gọi lại sau mỗi 1 phút. và không thể chạy trên 1 server free như render...
Cho em hỏi có hướng nào giải quyết không ạ?
ปีที่แล้ว
Em post lên nhóm Mì AI xem nhé!
@learningisfun5353 3 ปีที่แล้ว ⁺¹
hay quá a ạ
3 ปีที่แล้ว ⁺¹
Cảm ơn em rất nhiều!
@kytran1146 ปีที่แล้ว ⁺¹
anh ơi anh nói rõ cách lấy cái "xem các bình luận trước" được k ạ em lấy mãi mà k được.
ปีที่แล้ว
Anh post lỗi lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup kèm ảnh chụp trao đổi cho tiện nha!
@cuocsongmuonmau6952 3 ปีที่แล้ว ⁺¹
E làm với trang web có bắt điền thêm captcha thì làm sao tự động điền captcha được a nhỉ ?
3 ปีที่แล้ว
Khoai đó em. Em post lên Group: facebook.com/groups/miaigroup trao đổi thêm nhé!
@hoangatduong836 2 ปีที่แล้ว ⁺¹
Chào anh, cho em hỏi anh đang code trên phần mềm gì vậy ?
2 ปีที่แล้ว
Anh sử dụng Pycharm nhé.
@hatrungtin274 4 ปีที่แล้ว
anh cho em hỏi phần mềm anh dùng từ 5:23 là phần mềm nào ạ anh
mà tải cho window ntn ạ
em cảm ơn anh ạ
4 ปีที่แล้ว ⁺¹
Anh dùng Pycharm em. Cái này free em có thể google tải về vô tư.
@hatrungtin274 4 ปีที่แล้ว
Em cảm ơn ạ =))
@tralevan6039 3 ปีที่แล้ว ⁺¹
admin ơi e thực hiện câu lênh browser = webdriver. .. trong windows không hiện các thuộc tính như Chrom, firefox hay một số web khác thì sửa lỗi ntn admin. mong admin chỉ e với ạ
3 ปีที่แล้ว
Bạn post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup kèm ảnh lỗi cho tiện nha!
@leelucky6390 4 ปีที่แล้ว ⁺¹
anh ơi em muốn hỏi có một số bình luận rất dài và phải bấm vào xem thêm thì mình nên chỉnh vòng lặp như nào để lấy được hết nội dung bình luận ạ?
4 ปีที่แล้ว ⁺¹
Em cứ kiểm tra các bình luận, nếu có thêm nút xem thêm thì ta bấm vào
@leelucky6390 4 ปีที่แล้ว
@ dạ vâng em tìm đc cách giải quyết r ạ hề hề
@luanoanvan9368 2 ปีที่แล้ว ⁺¹
anh ơi với thư viện selenium hiện tại của em thì chỉ có find_element và find_elements chứ không có find_element_by_xpath thì làm sao ạ. em cảm ơn anh ạ
2 ปีที่แล้ว
Phiên bản mới nó vạy em. Em thay find_element_by_xpath = find_element(by="xpath) nhé. Cần thêm gì em post lên facebook.com/groups/miaigroup nhé!
@phanthanhduyen 4 ปีที่แล้ว ⁺²
em chạy browser.find_elements_by_xpath("//div[@aria-label='Bình luận']") nhưng mà kết quả là 1 list rỗng thì phải sửa làm sao đây ạ, các bước trước thì em chắc chắn đúng hết rồi
4 ปีที่แล้ว
Facebook đổi giao diện rồi thì phải em. Em inspect lại đi!
@phanthanhduyen 4 ปีที่แล้ว ⁺¹
@ em chạy trên local thì được, chạy trên colab thì không được ạ
4 ปีที่แล้ว
@@phanthanhduyen Cái này chạy local đi em:D. Train model thì hãy colab ":D
@phanthanhduyen 4 ปีที่แล้ว ⁺¹
@ thanks a
@solairenero5023 4 ปีที่แล้ว
@@phanthanhduyen alo bạn chạy dc chưa ạ
@BảoQuốcTrần-t5n ปีที่แล้ว ⁺¹
Trong trường hợp đăng nhập sử dụng prompt() thì làm như thế nào a?
ปีที่แล้ว
Sử dụng prompt là ntn em?
@ЗюиЧанДык 4 ปีที่แล้ว ⁺¹
Bác ơi con không tải được chrome drive 64 bit cho máy win, con cần làm gì hả Bác?
4 ปีที่แล้ว
Con tải thì bị lỗi như nào? Con chụp màn hình post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup
nhé!
@NguyenHung-ep2zk 4 ปีที่แล้ว ⁺¹
cảm ơn anh nhiều!
4 ปีที่แล้ว
Không có gì em. Cảm ơn em nhé.
#MìAI
Fanpage: facebook.com/miaiblog
Group trao đổi, chia sẻ: facebook.com/groups/miaigroup
Blog: miai.vn
TH-cam: bit.ly/miai_youtube
@danhtrinh3521 3 ปีที่แล้ว ⁺¹
anh ơi, cho em hỏi là thẻ
3 ปีที่แล้ว
Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup trao đổi cho tiện nhé!
@nguyenphan9494 3 ปีที่แล้ว ⁺¹
Anh ơi, em đang làm bài toán về phân tích câu comment là tốt hay xấu anh cho em xin hướng dẫn được không ạ. Em cảm ơn ạ
3 ปีที่แล้ว ⁺¹
Đây em
www.miai.vn/2020/05/04/nlp-series-1-thu-lam-he-thong-danh-gia-san-pham-lazada/
Cần hỗ trợ gì em lên Group: facebook.com/groups/miaigroup hỏi thêm nha!
@nguyenphan9494 3 ปีที่แล้ว ⁺¹
@ Anh cho em xin hướng dẫn chạy project được không ạ. Em cảm ơn ạ
3 ปีที่แล้ว ⁺¹
@@nguyenphan9494 Ủa cả 1 bài hướng dẫn rồi mà em.
@duymanh5506 3 ปีที่แล้ว ⁺¹
anh ơi, làm sao để ghi text vào chỗ tin nhắn ở trong messenger vậy ạ, không có id ở trong html nên e không biết chèn text vào kiểu gì :((
3 ปีที่แล้ว
Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup thảo luận cho tiện nha!
@phattran6028 3 ปีที่แล้ว ⁺¹
anh ơi có cài hàm nào mà khi crawl dữ liệu mà ẩn chrome anh, e cảm ơn
3 ปีที่แล้ว
Có em. Em search headless seleinum python! Hoặc post lên Group: facebook.com/groups/miaigroup trao đổi thêm cho rõ nhé!
@GigaOhms 4 ปีที่แล้ว ⁺¹
anh ơi, anh làm hướng dẫn cách ghi vào file excel luôn được không ạ
4 ปีที่แล้ว ⁺²
Sắp tới anh làm khóa về Python nhé!
@ai6503 4 ปีที่แล้ว ⁺¹
Mình cũng đang cần cái này, mong anh Mì AI hướng dẫn làm sớm
4 ปีที่แล้ว ⁺¹
@@ai6503 Thanks bạn. Trong khóa học Python (hiện đã có bài đầu tiên trên Kênh TH-cam) mình sẽ trình bày ở Chương 5 nhé!
@kinghung688 2 ปีที่แล้ว ⁺¹
anh ơi em đá cài chromedriver.exe và code theo trong video sao no vẫn hiện là ko tìm đc file mong anh giải đáp, em cảm ơn
2 ปีที่แล้ว
Em post cụ thể lên facebook.com/groups/miaigroup cho tiện trao đổi nhé!
@ThanhNguyen-cw6qz 4 ปีที่แล้ว ⁺¹
Anh ơi, nếu em muốn crawl danh sách thành viên của group facebook thì em nên sử dụng công cụ nào ạ ?
4 ปีที่แล้ว
Vẫn selenium và python thôi em.
@minh96truong72 3 ปีที่แล้ว ⁺¹
cho em hỏi là làm sao để không dùng delay mà dòng code sau vẫn đợi dòng code trước load xong ạ.
3 ปีที่แล้ว ⁺¹
Bạn dùng lệnh WaitFor của Selenium nhé!
@mystic837 3 ปีที่แล้ว ⁺¹
Quá hay
3 ปีที่แล้ว
Thanks bạn ủng hộ nha.
Gia nhập cộng đồng Mì AI nha!
Fanpage: facebook.com/miaiblog
Group: facebook.com/groups/miaigroup
Website: miai.vn
TH-cam: bit.ly/miaiyoutube
@checkmate8811 4 ปีที่แล้ว ⁺¹
Anh ơi có cách nào để crawl được data về comment trên tiki không ạ
4 ปีที่แล้ว
Có em. Em cứ inspect từng thành phần xem nó có id là gì, class ra sao là lấy được hết.
@phucuongle7986 4 ปีที่แล้ว ⁺¹
Sử dụng selenium chỉ mở được hồ sơ khách thôi à anh, có cách nào mở được chrome hồ sơ 2 không anh
options.add_argument("user-data-dir=C:\\Users\\Users_Name\\AppData\\Local\\Google\\Chrome\\User Data\\Profile 2") - Cái này trên mạng thấy có hướng dẫn nhưng làm thì chạy không ra
4 ปีที่แล้ว
Cái này em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup để trao đổi cho tiện nha!
@Cun-qv9xk 4 ปีที่แล้ว ⁺¹
Mình cũng cần mở hồ sơ sign in sẵn 1 số account google sau đó vào 1 trang web thực hiện 1 số thao tác giống nhau, bạn đã tìm được giải pháp chưa @Phú Cường Lê
@tienmanh1485 4 ปีที่แล้ว ⁺¹
cho em hỏi mình muốn save full trang html về luôn làm sao vậy anh
4 ปีที่แล้ว
Thế thì sau khi get xong em in luôn cái element.get_attribute('innerHTML') là okie. Hoặc em chơi luôn thư viện khác cho nhanh cũng được
import urllib2
page = urllib2.urlopen('stackoverflow.com')
page_content = page.read()
with open('page_content.html', 'w') as fid:
fid.write(page_content)
@truongminhman517 2 ปีที่แล้ว ⁺¹
anh ơi, lúc run em bị lỗi ImportError: No module named selenium. Em tải python3, pip22, selenium rồi, dùng pip3 show selenium cũng ra version luôn mà sao nó lại không có module. Mong anh chỉ giáo ạ, em cảm ơn.
2 ปีที่แล้ว ⁺¹
Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup kèm ảnh cho tiện trao đổi nhé!
@Donghung_Saigon 3 ปีที่แล้ว ⁺¹
video rất hay. cảm ơn anh nhé
3 ปีที่แล้ว
Welcome em nha!
#MìAI
Fanpage: facebook.com/miaiblog
Group trao đổi, chia sẻ: facebook.com/groups/miaigroup
Blog: miai.vn
TH-cam: th-cam.com/users/MiAIblog
@nguyenthinh6842 3 ปีที่แล้ว ⁺¹
Thầy ơi cho nó kéo chuột xem hết trang như nào ạ
3 ปีที่แล้ว
Bạn post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé. Trao đổi cho tiện!
@TiMaclife 3 ปีที่แล้ว ⁺¹
cho em hỏi, vậy nếu cmt đó có nhãn dán và hình ảnh thì phải làm sao ạ?
3 ปีที่แล้ว
Ý em là sao nhỉ?
@quyetvan6081 8 หลายเดือนก่อน ⁺¹
nếu quá trình làm bị lỗi như thế này ( TypeError: 'module' object is not callable ) thì phải xử lý thế nào ạ, mong anh rep
8 หลายเดือนก่อน
Bạn post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup kèm ảnh chụp cho tiện trao đổi nhé!
@duyhoangta7988 4 ปีที่แล้ว ⁺¹
Thưa a hình như bây h facebook họ đổi giao diện mới mình không thể lấy được element như cách này được thì phải ạ, anh có thể hỗ trợ e cách lấy mới được k ạ?
4 ปีที่แล้ว ⁺²
Đúng rồi em. Sau khi anh làm clip thì Facebook thay đổi. Em click chuột phải rồi chọn Inspect để lấy XPath của element nhé.
@duyhoangta7988 4 ปีที่แล้ว ⁺¹
@ Okie A Ạ. Chúc a sức khỏe, giữ nhiệt huyết để chia sẻ kiến thức a nhá
4 ปีที่แล้ว
@@duyhoangta7988 Welcome em!
@vanhau8570 4 ปีที่แล้ว ⁺¹
Dạ anh ơi cho em hỏi chỗ lệnh comment.find_element_by_class_name("") . Nếu em dùng phiên bản facebook cũ thì vẫn được bình thường còn khi facebook phiên bản mới em tìm không ra name class với id của comment để bỏ vào á anh @@
4 ปีที่แล้ว
Em phải inspect xem trên phiên bản mới thì class_name là gì rồi thay vào chỗ lệnh find là okie.
@vanhau8570 4 ปีที่แล้ว
Mì AI dạ e thử rồi anh.. mà e thay class name vào nó chỉ lấy dc comment đầu tiên thôi á a.. e cũng thử dùng find by class name hay xpath thẻ div nó cũng chỉ show comment đầu tiên thôi á a 🧐🧐
@caotrungkien_3098 3 ปีที่แล้ว
anh ơi cho em hỏi nếu mình muốn crawl ảnh về thì dùng hàm gì ạ. Em cảm ơn anh!
3 ปีที่แล้ว
Em lấy URL của ảnh rồi save về thôi. Cần thêm gì em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
@vanson9114 3 ปีที่แล้ว ⁺¹
Anh ơi cho em hỏi là có cách nào điểu khiển chrome mà không cần thông qua selenium không ạ? E tìm hiểu mà không thấy
3 ปีที่แล้ว
Ủa thế sao em ko dùng Selenium?
@vanson9114 3 ปีที่แล้ว ⁺¹
@ Selenium mỗi khi chạy lại mở 1 chromedriver mới. Mà e muốn điều khiển dữ liệu trên chính chrome đang chạy luôn ạ
3 ปีที่แล้ว ⁺¹
@@vanson9114 Cách nhanh nhất là em xem chrome hiện tại đang mở tab gì em mở lại bên Sele cho nhanh
@vanson9114 3 ปีที่แล้ว
@ À. Để e search thử ạ. E cảm ơn ad nhiều nhé. 😂😂😂
@nguyentanloc9023 3 ปีที่แล้ว ⁺²
Hi Anh ơi, cho em hỏi thăm ạ, em cũng mới bắt đầu học rawl dữ liệu thôi, 1 web nội bộ chứa thông tin dữ liệu trực tuyến html dạng table. Nội từng cell là từng Khách hàng với khoảng 10 cột chứa thông tin. Tập load khoảng 104 nghìn cell khách hàng. Em chưa làm, nhưng nếu làm bằng phương pháp selenium này liệu có load đc 1 lượng dữ liệu lớn như vậy ko ạ. em cảm ơn Anh.
3 ปีที่แล้ว ⁺¹
Nếu web hiển thị được 104K cell và Chrome ko treo thì Sele lấy tốt em nhé!
@nguyentanloc9023 3 ปีที่แล้ว
@ dạ Anh, em dùng chrome web cty em chỉ load đc 1 lần có 200 thôi Anh :(
@rawmetal3052 2 ปีที่แล้ว ⁺¹
@@nguyentanloc9023 bạn định vị bằng XPATH hay CSS selector? Khi crawl dữ liệu thứ tự ưu tiên khi định vị element như sau:
1. id
2. class name
3. css selector
và cuối cùng khi hết lựa chọn: XPATH do cần phải chỉnh cho driver đến tọa độ của element.
Nếu crawl bằng CSS selector thì miễn là dữ liệu hiển thị toàn bộ dưới dạng HTML trên 1 trang thì load một phát là được tất ngay
@holuc4630 2 ปีที่แล้ว
cho mình hỏi khi mình muốn click next page của một trang thì phải cuộn tới chỗ hiện thị nextpage thì nó mới chạy nhỉ.
@holuc4630 2 ปีที่แล้ว
@@rawmetal3052 cho mình hỏi khi mình muốn click next page của một trang thì phải cuộn tới chỗ hiện thị nextpage thì nó mới chạy nhỉ.
@hahoa8177 3 ปีที่แล้ว ⁺¹
Lưu đăng nhập kiểu gì ạ
3 ปีที่แล้ว
Em có thể save lại user/pass. Còn muốn lưu đăng nhập thì có thể save cả cookies.
@YouGG 4 ปีที่แล้ว ⁺¹
Nếu như e xài Cốc cốc thì s ak 6:56
4 ปีที่แล้ว
Thì em cài thêm Chrome để crawl nhé!
@tuananhnguyen7381 3 ปีที่แล้ว ⁺¹
Anh ơi anh có cách nào bypass captcha không anh
3 ปีที่แล้ว
món này phải train model OCR hoặc dùng dịch vụ thuê ngoài qua API em ah.
@agriculturelifescience7938 3 ปีที่แล้ว ⁺¹
Anh lấy . Các bài đăng từ nhóm xuống được ko anh. Vì gruop em bị chiếm quyền adimin
3 ปีที่แล้ว
A ko hiểu ý em . Em post lên Group: facebook.com/groups/miaigroup trao đổi thêm nhé!
@quanbluee 4 ปีที่แล้ว ⁺¹
a ơi tại sao e lấy tất cả element theo xpath là tất cả thẻ div có class là ''bp9cbjyn ue3kfks5 pw54ja7n uo3d90p7 l82x9zwi n1f8r23x rq0escxv j83agx80 bi6gxh9e discj3wi hv4rvrfc ihqw7lf3 dati1w0a gfomwglr'' khi chạy thì lúc nó lấy được list lúc thì k ạ, e có check là mấy lần không lấy được list thì class nó cũng tên vậy luôn chứ k đổi
4 ปีที่แล้ว ⁺¹
Facebook nó có hệ thống class khá động đậy. Mình phỉa dùng tip tý em ah. Em post thử vấn đề lên facebook.com/groups/miaigroup xem! Có ảnh chụp cho tiện!
@quanbluee 4 ปีที่แล้ว ⁺¹
@ e ms xử lý được vấn đề đó r ạ, do lúc chạy e k set tgian sleep để fb nó load page nên ms bị v ạ
4 ปีที่แล้ว
@@quanbluee Great em!
@tuanduong7513 3 ปีที่แล้ว
@ dùng tip gì anh nhỉ, a có thể nói rõ hơn không anh nhỉ. Em cảm ơn.
@hoangtuyen2000 4 ปีที่แล้ว
Mấy cái file và tài liệu tiếng anh thầy tham khảo ở đâu vậy ạ có thể cho em xin link tiếng anh không ạ
4 ปีที่แล้ว ⁺¹
Ủa cụ thể là file và tài liệu nào nhỉ?
@joeywang2024 4 ปีที่แล้ว ⁺¹
Tiếng Anh thì đọc ebook Web Scraping with Python. Có cả Selenium, BeautySoup...
Tuy nhiên là nghiên cứu riêng từng cái trước.
@GigaOhms 4 ปีที่แล้ว
anh oi. cái dòng cmt_list = browser.find_element_by_xpath("//div[@aria-label='Bình luận']"). cái xpath đó mình lấy ở đâu vậy anh
4 ปีที่แล้ว
Ah cái đó em làm như trong clip đó, click chuột phải chọn Copy XPath đó.
@Caovannguyen 2 ปีที่แล้ว ⁺¹
cảm ơn anh
2 ปีที่แล้ว
Thanks bạn đã ủng hộ hihi.
Cần thêm gì bạn post lên facebook.com/groups/miaigroup nhé!
@YuGiOh97 4 ปีที่แล้ว ⁺¹
anh ơi nếu em crawl 1 website mà content nó sử dụng lazyload thì sao ạ
4 ปีที่แล้ว
Em dùng selenium kết hợp với waitFor là okie.
Cần gì em lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup thảo luận thêm nha!
@hotboy967 3 ปีที่แล้ว ⁺¹
login va crawl du lieu tu facebook python
3 ปีที่แล้ว
Cảm ơn bạn.
#MìAI
Fanpage: facebook.com/miaiblog
Group trao đổi, chia sẻ: facebook.com/groups/miaigroup
Blog: miai.vn
TH-cam: th-cam.com/users/MiAIblog
@hieuvu6543 3 ปีที่แล้ว
anh cho e hỏi e build source anh bị lỗi như này, e làm như nào ạ lỗi chỗ find_element_by_xpath
3 ปีที่แล้ว
Như nào em? Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup kèm ảnh chụp cho tiện trao đổi nhé.
@thanhtrungnguyen415 5 หลายเดือนก่อน ⁺¹
Dùng selenium này có sợ bị ban nick ko bác
5 หลายเดือนก่อน
Có đó bác. Phải kết hợp với Proxy cho lành! Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup cho tiện trao đổi nhé!
@trunghieu5194 2 ปีที่แล้ว ⁺¹
anh ơi sao em chạy sleep nó ko hoạt động mà nó đóng trình duyệt luôn
2 ปีที่แล้ว
Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé! Trao đổi cho tiện!
@tranminhthien9896 3 ปีที่แล้ว ⁺¹
sau khi đăng nhập thành công facebook sẽ ra một bản thông báo ...làm sao tắt được vậy anh?
3 ปีที่แล้ว
Thông báo gì thế em? Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup thảo luận cho tiện nhé!
@nguyenhoanggiahuy6596 5 หลายเดือนก่อน ⁺¹
ah ơi h selenium 4.22 gọi lệnh sao ạ
5 หลายเดือนก่อน
Lâu quá a cũng ko làm. Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
@cosmic12333 2 ปีที่แล้ว ⁺¹
cách này có crawl được phim không ạ
2 ปีที่แล้ว
Gì cũng được em. Miễn tìm ra elements và có cách vượt chặn (nếu site chặn) thì okie hết.
@cosmic12333 2 ปีที่แล้ว
@ em cảm ơn ạ
@snowmankhampha 4 ปีที่แล้ว
Anh ơi nếu mình viết trên điện thoại thì chomer lấy đâu ra vậy anh
4 ปีที่แล้ว
Điện thoại thì anh sợ phải làm cách khác. Em làm bài toán gì thế. Chia sẻ lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
@joeywang2024 4 ปีที่แล้ว
Điện thoại thì dùng cái khác như Safari driver...
@uhntgs 4 ปีที่แล้ว ⁺¹
em cảm ơn anh
4 ปีที่แล้ว
Yeah ko có gì em. Cảm ơn em luôn ủng hộ.
#MìAI
Fanpage: facebook.com/miaiblog
Group trao đổi, chia sẻ: facebook.com/groups/miaigroup
Blog: miai.vn
TH-cam: bit.ly/miai_youtube
@ThaoPhuong-wy7dz ปีที่แล้ว
cách này có crawl được dữ liệu người đăng kí một kênh yt bất kì k a
ปีที่แล้ว
Nếu cứ cái gì hiện lên trên web là mình crawl được bạn ạ :D
@-googlesearchdeveloper7069 4 ปีที่แล้ว
anh ơi trong trường hợp chỉ dc login bằng gmail thì lm sao anh, cho em keyword với :3
4 ปีที่แล้ว ⁺¹
Login gmail thì cũng như facebook thôi. Chỉ cần điền đủ là okie? Hay ý em là gmail chặn :D
@linhnguyenvu4241 3 ปีที่แล้ว ⁺¹
anh ơi em cho chạy nhiều lần khiến facebook chặn phải đăng nhập thì phải xử lý thế nào vậy anh
3 ปีที่แล้ว ⁺¹
Em đổi IP khác thôi. Và máy khác càng tốt. Facebook nó chống crawl mà!
@linhnguyenvu4241 3 ปีที่แล้ว
@ em cảm ơn anh
@linhnguyenvu4241 3 ปีที่แล้ว
em mò đổi IP rồi AI của thằng facebook bữa này mạnh quá
@linhnguyenvu4241 3 ปีที่แล้ว
@ em đổi ip rồi nhưng thằng facebook nó cũng biết nên em đăng nhập luôn
@nhaathoangat9575 ปีที่แล้ว
from selenium import webdriver
nó toàn báo lỗi thế này: ModuleNotFoundError: No module named 'selenium'
@nhaathoangat9575 ปีที่แล้ว
cao nhân nào chỉ giáo e với
ปีที่แล้ว
Bạn post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé cho tiện trao đổi!
@tungnguyen9336 4 ปีที่แล้ว
cam on anh
4 ปีที่แล้ว
Cảm ơn em luôn ủng hộ nha!
@ThaoNguyen-mt4qg 3 ปีที่แล้ว ⁺¹
Cái này có bị toang fb k a ơi
3 ปีที่แล้ว
Bạn làm với request rate vừa vừa thì ko sao. Còn nếu làm nhiều (ko phải để học mà làm dự án) thì phải áp nhiều chiêu khác như proxy chẳng hạn.
3 ปีที่แล้ว
@Tuần Trần Văn Bạn post lên Group: facebook.com/groups/miaigroup trao đổi cho tiện nhé!
@thihaui 4 ปีที่แล้ว ⁺¹
Anh ơi, e đang sử dụng Windown 64bit, nhưng trên web download chỉ có bản chrome 32 bit thôi ạ. Khi dung py gọi chrome ra thì nó báo lỗi "TypeError: 'module' object is not callable
"
4 ปีที่แล้ว
Không sao đâu em. Em post thửu ảnh lỗi lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
@SieuNhanKobe 3 ปีที่แล้ว
em bị lỗi ở chỗ dùng random.randint :< google hoài không ra hihu
3 ปีที่แล้ว
Em post lỗi lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé
@uhntgs 4 ปีที่แล้ว ⁺¹
anh ơi,anh có thể hướng dẫn cách lấy link fb của người cmt rồi lấy thông tin tuổi tác,giới tính được không ạ
4 ปีที่แล้ว
Ah cái đó thì anh lại ko rõ vì chưa mần. Em hỏi thử trên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup xem!
@tri_ho 4 ปีที่แล้ว ⁺¹
Thít mì dạng này
4 ปีที่แล้ว
Thanks bạn đã ủng hộ.
#MìAI
Fanpage: facebook.com/miaiblog
Group trao đổi, chia sẻ: facebook.com/groups/miaigroup
Blog: miai.vn
TH-cam: bit.ly/miai_youtube
@tinhphannn ปีที่แล้ว ⁺¹
sao em làm như anh bị lỗi anh nhỉ
ปีที่แล้ว
Em post lỗi lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
@Yuu-jf4nl 3 ปีที่แล้ว ⁺¹
SO usefui

ต่อไป

เล่นอัตโนมัติ

Thử dùng Airflow để crawl dữ liệu, train model hoàn toàn tự động - Mì AI