Jupyter Notebook cũng như dữ liệu của bài học hôm nay, các bạn có thể tải xuống tại Github Repo Link: ✪ Jupyter Notebook & CSV của Video: github.com/CodexploreRepo/data_science/tree/main/Code/P01_Pre_Processing Ai muốn làm nội dung gì thì comment bên dưới cho CodeXplore biết nha :)
trước tiền xử lí data thì có bước thu thập dữ liệu (Crawling data) , hiện tại python có selenium crawl nhưng khá lâu , bs4 thì nhanh hơn nhưng ko làm việc với js , scrapy nhanh nhất nhưng muốn crawling website code bằng js cần docker + flash . Hi vọng ae admin kênh làm 1 khóa scrapy +docker+flash để crawl những web code bằng js ( shopee , lazada , tiki ,vv...vv) e xin cảm ơn !
Em hóng series này ghê á, anh đến ngay lúc em đang cần để làm đồ án luôn. Hi vọng có 1 video nào đó kiểu 1 mô hình nhỏ mà có thể bao quát được ứng dụng thực tế luôn á.
a cho e hỏi. khi encode column Country sau khi encode thì sẽ có phát sinh vector n cột tương ứng với value unique phải ko ạ. Nếu đúng như vậy thì với tập data lớn giá trị unique quá lớn thì làm sao mình kiểm soát số cột phát sinh để khi xử lý những cột phía sau ạ. tks a.
Một câu hỏi rất hay ! Chính xác rồi em nhé, số n cột sinh ra tương ứng vs unique values trong cột country. Đối với trường hợp có nhiều giá trị unique values, chúng ta có thể dùng kiểu encode khác thay cho One Hote Encoder, vd như Binary Encoder để chuyển về dạng một dãy nhị phân em nhé: contrib.scikit-learn.org/category_encoders/binary.html
anh ơi em góp ý cái chỗ lấp dữ liệu null ấy mình nên thay thế đoạn đấy thành [data_df.fillna(data_df.mean() ,inplace=true) ] như này cấu trúc đơn giản dễ hiểu hơn mà lại nhanh gọn ạ ! Em cảm ơn vì bài giản , em chỉ muốn góp ý cho anh và mọi người có gì sai sót a cứ việc chỉ giáo !😁
Anh có thể ra thêm cách làm bảng dashboard cho power BI hay Tableau mà khi mình đã có phân tích trên file jupyter notebook được ko a. Kiểu 1 dạng project end to end ấy. Cám ơn a
mn cho e hỏi, theo kiến thức e được học thì ta phải tách dữ liệu trước, sau đó mới bắt đầu preprocessing vì khi ta không tách mà ta fit_ transform toàn bộ dữ liệu như vậy sẽ có thể bị data leakage khiến model có thể overfitting nhỉ
Anh ơi cho em hỏi khi dữ liệu có đến 100 dòng thì làm sao dùng heatmap để show ra dữ liệu bị thiếu được ạ. Vì lúc này biểu đồ nhỏ nên nó chia trục dọc ra thành 0 - 4 - 8 - 12 ...... chứ không phải chia dữ liệu trục dọc ra thành 0 -1 - 2 - .... như dữ liệu chỉ có 10 dòng của anh. Làm cho các dữ liệu ở các vị trí như ( 1,2,3 hay 5,6,7) là các vị trí bị thiếu thì nó không show ra trên hình được ạ. Anh giúp em fix chỗ này với ạ. Em cảm ơn anh
Cho hỏi cái feature scaling nên làm trước khi hay sau khi train-split mình và cô giáo của mình cũng cãi nhau vài tuần vì cái vụ scale này thank chủ kênh nhé
x_train[:,3:] = sc.fit_transform(x_train[:,3:]) x_test[:,3:] = sc.transform(x_test[:,3:]) Hi ad mình đang xem đoạn này, mình đang k hiểu tại sao x_train thì có dùng fit còn x test thì không. fit_transtorm với transform khác nhau chỗ nào vậy ad.
fit để model học các dữ liệu mà mình đưa vào, transform để chuyển đổi dữ liệu được đưa vào đó về cùng range với nhau. x_test không được fit vì 2 lý do chính: (1) ta đã fit xtrain rồi, tức là model đã học từ các dữ liệu của x_ train, mà dữ liệu của x_train thì cũng tương tự x_test vì nó cùng 1 cột mà ra (2) ta không được fit x test vì khi fit x test thì model có thể học dữ liệu của x test điều này gây ra data leakage khiến việc dữ đoán có thể ko chính xác dẫn đến overfitting
Hi em, thì kết quả mỗi lần chạy sẽ khác nhau. Mình fix seed thì kết quả mỗi lần chạy sẽ ra như nhau để vd mình có báo cáo thì số liệu không thay đổi em nhé
Anh ơi cho em hỏi xíu : e ngồi code 1 lúc xong tắt máy đi ngủ, qua hôm sau bật tệp đó lên code tiếp thì nó báo lỗi ạ. cứ phải bấm vào từng dòng từ đầu xong bấm command enter để chạy lại từng dòng thì mới code tiếp đc ạ. :(
Tại vì nó train trên tập X_train rồi đó bạn X_train với X_test là tập con của X mà, nên feature scaling trên training set (tức X_train) có nhiều element hơn do đó X_test nên theo mean() với std() (công thức khúc 41:50) của X_train, theo mình hiểu là v á :3
Jupyter Notebook cũng như dữ liệu của bài học hôm nay, các bạn có thể tải xuống tại Github Repo Link:
✪ Jupyter Notebook & CSV của Video: github.com/CodexploreRepo/data_science/tree/main/Code/P01_Pre_Processing
Ai muốn làm nội dung gì thì comment bên dưới cho CodeXplore biết nha :)
Rất ý nghĩa từ nội dung đến cách chia sẻ và cách sống!🎉
Cảm ơn bạn đã ủng hộ 👏
trước tiền xử lí data thì có bước thu thập dữ liệu (Crawling data) , hiện tại python có selenium crawl nhưng khá lâu , bs4 thì nhanh hơn nhưng ko làm việc với js , scrapy nhanh nhất nhưng muốn crawling website code bằng js cần docker + flash . Hi vọng ae admin kênh làm 1 khóa scrapy +docker+flash để crawl những web code bằng js ( shopee , lazada , tiki ,vv...vv) e xin cảm ơn !
Wow good suggestion ! Anh sẽ note và làm em nhé ! Cảm ơn em đã luôn ủng hộ CodeXplore !
hay quá , mình cũng đang cần cái này. Hi vọng ad làm series về crawling data nữa thì quá tuyệt
Rất bổ ích, mình cảm ơn channel nhiều
Bài giảng của anh rất hay và bao quát toàn bộ kiến thức. Hi vọng anh ra nhiều video ạ!
Nhất định rồi em nhé ! cảm ơn em đã ủng hộ CodeXplore !
Mong anh tiếp tục phát triển series này ạ. Quá hay luôn anh ơi
Nhất định rồi em nhé !
Thanks a. Mong a ra video nhiều hơn ạ
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
cảm ơn a rất nhiều ạ. Mong a ra nhiều vid hơn về chủ đề khoa học dữ liệu
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
yêu anh zai quá, e hóng lâu lắm rồi ạ
Hehe thanks bro ! Hẹn em vào 7:30pm tối nay nhé !
Cảm ơn anh nhiều nhé! Em đã đăng ký kênh anh và bấm chuông thông báo rồi nha ^^
Em hóng series này ghê á, anh đến ngay lúc em đang cần để làm đồ án luôn. Hi vọng có 1 video nào đó kiểu 1 mô hình nhỏ mà có thể bao quát được ứng dụng thực tế luôn á.
thế hả em ! Vinh dự quá, anh sẽ cố gắng em nhé !
Anh ra thêm về video data science tiếp đi anh, cứ cuối tuần em chờ suốt.
Ok em, Team sẽ cố gắng nhé 😀
hành động thật ý nghĩa ạ
Anh có thể làm một series về SQL với python được k ạ. A nói rất dễ hiểu. E cám ơn a ạ
cám ơn bạn đã chia sẻ
anh ra thêm video về machine learning, deep learning như này đi ạ hay quá luôn, học dễ hiểu lắm tr
Video huong dan rat chi tiet, cam on anh :)
You re welcome em
Anh giảng hay lắm ạ, hi vọng anh sẽ ra thêm video về Data Science
Nhất định rồi em nhé ! Chúc em có một buổi tối vui vẻ
Hề lấu em
Cám ơn anh nhiều ạ
You re welcome em
rất dễ hiểu ạ, mong team ra nhiều sp hay !
Video của a rất hay ạ! A ơi, bữa nào a làm video hướng dẫn kĩ thuật collect data trên web được không ạ! Cảm ơn a rất nhiều
Cảm ơn em đã luôn ủng hộ team CodeXp;ore nhé !
Cảm ơn ad
Hay lắm người anh em :>
Trời ơi hóng vd anh mãi
Hehe, sơ rì vì đã để em phải đợi lâu nhé !
a cho e hỏi. khi encode column Country sau khi encode thì sẽ có phát sinh vector n cột tương ứng với value unique phải ko ạ. Nếu đúng như vậy thì với tập data lớn giá trị unique quá lớn thì làm sao mình kiểm soát số cột phát sinh để khi xử lý những cột phía sau ạ. tks a.
Một câu hỏi rất hay ! Chính xác rồi em nhé, số n cột sinh ra tương ứng vs unique values trong cột country. Đối với trường hợp có nhiều giá trị unique values, chúng ta có thể dùng kiểu encode khác thay cho One Hote Encoder, vd như Binary Encoder để chuyển về dạng một dãy nhị phân em nhé: contrib.scikit-learn.org/category_encoders/binary.html
@@CodeXplore A có dự định làm series về data engineering ko ạ.
anh ơi em góp ý cái chỗ lấp dữ liệu null ấy mình nên thay thế đoạn đấy thành [data_df.fillna(data_df.mean() ,inplace=true) ] như này cấu trúc đơn giản dễ hiểu hơn mà lại nhanh gọn ạ ! Em cảm ơn vì bài giản , em chỉ muốn góp ý cho anh và mọi người có gì sai sót a cứ việc chỉ giáo !😁
cho em hỏi nếu cột có giá trị string bị thiếu thì sao ạ
Video của anh hay quá ạ.
Anh có thể chia sẻ thêm về một số nguồn học và khóa học về Machine Learning được không ạ??
Em có thể làm các project trên Kaggle hoặc học course Machine Learning của thầy Andrew Ng trên Coursera em nha
@@CodeXplore cho em xin nguồn những project hợp newbie với ạ , em mới học nên còn khá mông lung ạ. Em cảm ơn
Anh nói dễ hiểu quá ạ. Anh có thể làm thêm Machine Learning cho người mới bắt đầu được ko ạ ?
Nhất định rồi em nhé
Hi vọng anh làm thêm về các thuật toán machine learning ak
Nhất Định rồi nhé em !
e hóng mãi
Hẹn em tối mai nhé ! Chúc em cuối tuần vui vẻ 😄
hay lắm ạ
Cảm ơn em
23:03 e đang k chọn đc các cốt cần convert như mong muốn ạ. em convert cột 1 2 4 thì cột 4 bị đổi chỗ cho cột 3
hay quá anh ơi
Hay quá b ơi , b có thể hướng dẫn sâu hơn về sckit learrn cho bước tiếp theo ko . Cảm ơn b nhiều
Nhất định r b nhé !
hay quá a
Cảm ơn em nha !
A ơi, a có thể ra video giải thích về PCA được ko ạ? Cách code nữa ạ. Em cảm ơn nhiều
a ơi cho em hỏi là mình StandardScaler dữ liệu train rồi khi dự đoán với dữ liệu thực thì làm thế nào ạ? mong được a rep
Anh có thể ra thêm cách làm bảng dashboard cho power BI hay Tableau mà khi mình đã có phân tích trên file jupyter notebook được ko a. Kiểu 1 dạng project end to end ấy. Cám ơn a
qúa đỉnh
Anh có thể làm tiếp về select feature được không ạ. Cảm ơn anh rất nhiều!
Em đang muốn theo học machine learning, theo e tìm hiều thì mới một framework là scikitlearn, a cho e hỏi ngoài ra mình cần học nhưng frame work gì ạ
Em có thể học Tensorflow hoặc PyTorch em nhé !
Anh cho em hỏi là ở phần Cleaning Data thì mình dùng method "fillna()" của Pandas tốc độ nó có chậm hơn cách làm của anh trong video không ạ?
mn cho e hỏi, theo kiến thức e được học thì ta phải tách dữ liệu trước, sau đó mới bắt đầu preprocessing vì khi ta không tách mà ta fit_ transform toàn bộ dữ liệu như vậy sẽ có thể bị data leakage khiến model có thể overfitting nhỉ
a có thể ra thêm video hướng dẫn dùng pipeline trong tiền xử lý dữ liệu k a
Anh ơi cho em hỏi khi dữ liệu có đến 100 dòng thì làm sao dùng heatmap để show ra dữ liệu bị thiếu được ạ. Vì lúc này biểu đồ nhỏ nên nó chia trục dọc ra thành 0 - 4 - 8 - 12 ...... chứ không phải chia dữ liệu trục dọc ra thành 0 -1 - 2 - .... như dữ liệu chỉ có 10 dòng của anh. Làm cho các dữ liệu ở các vị trí như ( 1,2,3 hay 5,6,7) là các vị trí bị thiếu thì nó không show ra trên hình được ạ. Anh giúp em fix chỗ này với ạ. Em cảm ơn anh
Anh ơi cho em hỏi với ạ. Sau khi tách data xong thì làm thế nào để lưu file về máy dưới dạng csv file ạ?. Em cảm ơn anh
Cho hỏi cái feature scaling nên làm trước khi hay sau khi train-split mình và cô giáo của mình cũng cãi nhau vài tuần vì cái vụ scale này thank chủ kênh nhé
You are welcome bạn !
phải scaled trước chứ nhỉ
x_train[:,3:] = sc.fit_transform(x_train[:,3:])
x_test[:,3:] = sc.transform(x_test[:,3:])
Hi ad mình đang xem đoạn này, mình đang k hiểu tại sao x_train thì có dùng fit còn x test thì không. fit_transtorm với transform khác nhau chỗ nào vậy ad.
fit để model học các dữ liệu mà mình đưa vào, transform để chuyển đổi dữ liệu được đưa vào đó về cùng range với nhau. x_test không được fit vì 2 lý do chính:
(1) ta đã fit xtrain rồi, tức là model đã học từ các dữ liệu của x_ train, mà dữ liệu của x_train thì cũng tương tự x_test vì nó cùng 1 cột mà ra
(2) ta không được fit x test vì khi fit x test thì model có thể học dữ liệu của x test điều này gây ra data leakage khiến việc dữ đoán có thể ko chính xác dẫn đến overfitting
Ae cho em hỏi tổ hợp phím để hiện gợi ý code được không ạ? em thử bấm ctrl + space như các IDE khác thì k đc ạ. Cảm ơn mn
Dạy Git-github đi a
Anh có làm series về Git rồi em tham khảo nha: th-cam.com/play/PLJcWUrckOCKJ9cL3WtHhK_eHu5Q3aYnDs.html
Anh ơi, ví dụ mình muốn tìm các datasets để luyện tập thì nên tìm ở đâu nhỉ?
Ở Kaggle em nhé !
@@CodeXplore Tks anh, mong a ra thêm về Machine Learning 😉
a ơi e tưởng phải bỏ 1 column để tránh dummy variable trap chứ nhỉ?
anh ơi làm về knowledge based recommendation systems in chọn course với anh
Good idea 👍 có j anh take note và làm nha
@@CodeXplore dạ dạ em cảm ơn anh
@@phamthixuanhienvlog8983 you re welcome em !
Em ko hiểu chỗ random.seek(42)
Nếu mình random mà không cần cái seek(42) nớ thì sao a nhỉ? Mong a giải đáp giúp em.
Hi em, thì kết quả mỗi lần chạy sẽ khác nhau. Mình fix seed thì kết quả mỗi lần chạy sẽ ra như nhau để vd mình có báo cáo thì số liệu không thay đổi em nhé
@@CodeXplore con số 42 này mình dựa vào đâu để lấy ạ? E cảm ơn
@@mialam2318 tùy ý bạn nhé. trong khoảng 2^32 thì phải
Anh ơi cho em hỏi xíu : e ngồi code 1 lúc xong tắt máy đi ngủ, qua hôm sau bật tệp đó lên code tiếp thì nó báo lỗi ạ. cứ phải bấm vào từng dòng từ đầu xong bấm command enter để chạy lại từng dòng thì mới code tiếp đc ạ. :(
Em có thể Chọn option "Restart and Run All Cell" nhé, nó sẽ giúp em chạy lại các cell từ đầu tới cuối
@@CodeXplore dạ ok r anh ạ, c.ơn a nhiều ạ :D
@@tranantony3009 you re welcome em
đây có thể xem là một chương trình hoàn chỉnh dùng để thuyết trình không ạ, mình là sinh viên năm 2 ạ
Anh đang dùng máy tính gì ạ
Anh đang dùng con Macbook em nha !
anh ơi, tại sao X_train được fit mà X_test thì không vậy anh? em vẫn chưa hiểu rõ lắm
Tại vì nó train trên tập X_train rồi đó bạn X_train với X_test là tập con của X mà, nên feature scaling trên training set (tức X_train) có nhiều element hơn do đó X_test nên theo mean() với std() (công thức khúc 41:50) của X_train, theo mình hiểu là v á :3
😍
Mong anh dạy em cách tạo một app trợ lý ảo đơn giản bằng tkinter và video F.R.I.D.A.Y trc của anh ạ ! Em cảm ơn.
Nhất định rồi em nhé ! Hi vọng video hữu ích vs em !
nhìn hơi lú :))
Xem đi xem lại ngâm cứu nha em ! Bởi vậy anh mới làm từng bước từng bước chứ làm project liền dễ bị nú :))
@DiwenD :D
quá lòng vòng , ko dễ hiểu lắm