Em chào anh, em cũng là một tay ngang vào ngành, có background kĩ sư. Em rất thích những video anh chia sẻ vì vô cùng dễ hiểu và rất căn bản, vô cùng phù hợp với người mới vào nghề. Mong anh chia sẻ thêm những video như này. Vì anh em mình cũng chung ngành ấy ạ, nên em rất thích ví dụ Churn Prediction này luôn anh ơi :))
2 ปีที่แล้ว
Cảm ơn em đã ủng hộ nha. Cùng nhau học hỏi. Nếu cần thêm info gì em post lên facebook.com/groups/miaigroup nhé!
Dạ em chào anh, hiện tại em cũng đang làm một bài toán dự đoán khách hàng có sử dụng dịch vụ trong ngày tiếp theo hay không (sử dụng dữ liệu từ 7 ngày trước). Em build features dựa trên RFM(recency, frequency và monetary) và sử dụng XgBoost, tuy nhiên accuray chỉ tầm 71%. Cho e hỏi có cách nào để cải tiến được hiệu suất cũng như một số kỹ thuật phân tích lỗi (EA) với ạ. Mong anh giúp em :(
ปีที่แล้ว
Data của em ntn có thể masking và chia sẻ được không? Xử lý data tốt cũng improve đc khá.
@ dạ phút 37 á anh. Thay vì churn_yes thì mình sửa thành gì ạ? Vì data của e phần churn là 1 và 0 thay vì yes and no ạ. Khi e gõ churn_1 thì nó báo lỗi á anh. Em có up lên gr rồi nma vẫn k được hỗ trợ nhiều lắm á🥲
Anh ơi cho e hỏi phần a loại bỏ cột correlation thì thay vì làm thủ công thì mình dùng PCA của sklearn với n_component='mle' . xin a cho ý kiến về 2 cách nó sẽ có điểm nào tốt xấu lợi hơn của từng cái ạ.
2 ปีที่แล้ว +4
Dear em. Anh cũng không chuyên lắm món này. Tuy nhiên theo như cách làm ở chỗ anh thì: - PCA và cách loại bỏ bằng tay đều làm giảm chiều dữ liệu. - Tuy nhiên với việc dùng MLE thì nó sẽ guest số chiều dữ liệu thay vì việc anh chủ động giảm thủ công - Với các chuyên gia ở chỗ anh thì dùng PCA khó giải thích với sếp (tính explainable thấp) hơn là dùng cách thủ công remove :D Em cần cứ post lên facebook.com/groups/miaigroup để thảo luận cho chuẩn nhé! Trên đó có nhiều chuyên gia.
Anh cho em hỏi sao mình lại drop_first chỗ get dummies vậy anh. Mình giữ lại có sao không ạ
2 ปีที่แล้ว
Cài này là để bỏ đi cột đầu cho nó đỡ phải maintain nhiều field thôi em. Cụ thể em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
anh ơi trong bộ dữ liệu này để mà đánh giá thì mình sẽ chọn các tiêu chí nào trong toàn bộ các dữ liệu ạ Giả sử như số tháng mà khách hàng gắn bó với dịch vụ, thì dữ liệu còn lại sẽ chọn những tiêu chí nào ạ
Nhờ Mì AI hướng dẫn khi có nhiều hơn 2 cột với Object nhưng nhận nhiều giá trị (mỗi cột trên 7, 8 giá trị) thì khi sử dụng mã hóa Hashing, các cột bị trùng tên nhau, cách giải quyết như thế nào?
2 ปีที่แล้ว
Bạn nêu vấn đề cụ thể lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup. nhé. Trao đổi kèm ảnh cho tiện.
Anh cho em hỏi nếu với 1 tập dữ liệu mà nó có nhiều features phụ thuộc vào nhau (em đã làm với tập dữ liệu như vậy) thì việc drop 1 trong 2 cái phụ thuộc vào nhau đi như vậy có làm mất quá nhiều thông tin không ạ, model có còn chuẩn nữa không. Vậy thì còn cách nào xử lý khác không anh. Nếu không drop thì sao ạ? Em cảm ơn
2 ปีที่แล้ว +1
Theo anh biết thì có để lại nó cũng ko làm model tốt hơn em ạ (hầu hết nhé, còn vẫn nên thử). Ví dụ cụ thể của em là data gì? Hai cột đó là 2 cột gì? Ví dụ nếu 1 cột là số lượng nhân sự, 1 cột là số lương phải trả thì nó khá là corr với nhau.
Em chào anh, em cũng là một tay ngang vào ngành, có background kĩ sư. Em rất thích những video anh chia sẻ vì vô cùng dễ hiểu và rất căn bản, vô cùng phù hợp với người mới vào nghề. Mong anh chia sẻ thêm những video như này. Vì anh em mình cũng chung ngành ấy ạ, nên em rất thích ví dụ Churn Prediction này luôn anh ơi :))
Cảm ơn em đã ủng hộ nha. Cùng nhau học hỏi. Nếu cần thêm info gì em post lên facebook.com/groups/miaigroup nhé!
Đoạn 29:26 anh đưa cái kia tấm màu đen kia lên để tự động detect đoạn nào cần cắt hả anh, anh làm bằng cách nào vậy ạ
Haha đâu có. Anh soi timelime nhìn thấy đen xì thì cắt thoai. Haha!
Dạ em chào anh, hiện tại em cũng đang làm một bài toán dự đoán khách hàng có sử dụng dịch vụ trong ngày tiếp theo hay không (sử dụng dữ liệu từ 7 ngày trước). Em build features dựa trên RFM(recency, frequency và monetary) và sử dụng XgBoost, tuy nhiên accuray chỉ tầm 71%. Cho e hỏi có cách nào để cải tiến được hiệu suất cũng như một số kỹ thuật phân tích lỗi (EA) với ạ. Mong anh giúp em :(
Data của em ntn có thể masking và chia sẻ được không? Xử lý data tốt cũng improve đc khá.
anh ơi đoạn SMOTE&Scale nếu giá trị của Churn là 0 và 1 thì phải làm sao hả a
A chưa hiểu ý em. Em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup cho tiện trao đổi nhé!
@ dạ phút 37 á anh. Thay vì churn_yes thì mình sửa thành gì ạ? Vì data của e phần churn là 1 và 0 thay vì yes and no ạ. Khi e gõ churn_1 thì nó báo lỗi á anh. Em có up lên gr rồi nma vẫn k được hỗ trợ nhiều lắm á🥲
Anh ơi em rất cần hỏi 1 câu là: những người chuyên phân tích và xây dựng mô hình như anh đang làm ở trên thì gọi là DA hay DS vậy ạ
Cái này có rất nhiều ý kiến và vẫn khá mơ hồ. Với anh thì DS cao hơn DA và DS ngâm cứu ra 1 thứ mới mẻ thật sự kaka. Cũng ko rõ có đúng ko?
Anh ơi cho e hỏi phần a loại bỏ cột correlation thì thay vì làm thủ công thì mình dùng PCA của sklearn với n_component='mle' . xin a cho ý kiến về 2 cách nó sẽ có điểm nào tốt xấu lợi hơn của từng cái ạ.
Dear em. Anh cũng không chuyên lắm món này. Tuy nhiên theo như cách làm ở chỗ anh thì:
- PCA và cách loại bỏ bằng tay đều làm giảm chiều dữ liệu.
- Tuy nhiên với việc dùng MLE thì nó sẽ guest số chiều dữ liệu thay vì việc anh chủ động giảm thủ công
- Với các chuyên gia ở chỗ anh thì dùng PCA khó giải thích với sếp (tính explainable thấp) hơn là dùng cách thủ công remove :D
Em cần cứ post lên facebook.com/groups/miaigroup để thảo luận cho chuẩn nhé! Trên đó có nhiều chuyên gia.
Anh cho em hỏi sao mình lại drop_first chỗ get dummies vậy anh. Mình giữ lại có sao không ạ
Cài này là để bỏ đi cột đầu cho nó đỡ phải maintain nhiều field thôi em. Cụ thể em post lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
@ dạ vâng ạ. Với anh cho thể cho em hỏi. Trong công ty anh thì anh dùng môi trường nào để code python ạ? Vs code hay jupiter note hay cái nào ạ?
A ơi, trước anh theo học gì để làm data sciences ạ
Anh học IT như bình thường thôi. Anh cũng không làm chính về DS đâu. Đam mê nên học cho biết thôi.
a ơi, dữ liệu thầy em bảo tự thu thập thì phải làm sao ạ, mong a trả lời giúp ạ
À thì em tải trên mạng rồi chế đi. Em bảo thầy là "Sinh viên ko làm thực tế, thu thập ở chỗ nào được trời?"
anh ơi trong bộ dữ liệu này để mà đánh giá thì mình sẽ chọn các tiêu chí nào trong toàn bộ các dữ liệu ạ
Giả sử như số tháng mà khách hàng gắn bó với dịch vụ, thì dữ liệu còn lại sẽ chọn những tiêu chí nào ạ
Em post lên facebook.com/groups/miaigroup nhé!
❤❤❤
Cảm ơn em. Cần thêm gì cứ lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup nhé!
bạn cho mình xin bản powperpoint với, minh cảm ơn
Bạn bấm vào phần mô tả của video, Có github xem có ko nhé. Nếu ko có thì mình cũng ko còn vì ít khi lưu lại.
Nhờ Mì AI hướng dẫn khi có nhiều hơn 2 cột với Object nhưng nhận nhiều giá trị (mỗi cột trên 7, 8 giá trị) thì khi sử dụng mã hóa Hashing, các cột bị trùng tên nhau, cách giải quyết như thế nào?
Bạn nêu vấn đề cụ thể lên Group trao đổi, chia sẻ: facebook.com/groups/miaigroup. nhé. Trao đổi kèm ảnh cho tiện.
Anh cho em hỏi nếu với 1 tập dữ liệu mà nó có nhiều features phụ thuộc vào nhau (em đã làm với tập dữ liệu như vậy) thì việc drop 1 trong 2 cái phụ thuộc vào nhau đi như vậy có làm mất quá nhiều thông tin không ạ, model có còn chuẩn nữa không. Vậy thì còn cách nào xử lý khác không anh. Nếu không drop thì sao ạ? Em cảm ơn
Theo anh biết thì có để lại nó cũng ko làm model tốt hơn em ạ (hầu hết nhé, còn vẫn nên thử). Ví dụ cụ thể của em là data gì? Hai cột đó là 2 cột gì?
Ví dụ nếu 1 cột là số lượng nhân sự, 1 cột là số lương phải trả thì nó khá là corr với nhau.
anh là làm bên ngân hàng nào thế?
Quên mất. A làm bên Ngân hàng Sài Gòn - Hà Nội nhé!
anh cho e xin link data để laa2m thử dc k ah
Anh có để trong gihub đó em.