Halo pak.. Kalau mau bikin library semacam sastrawi ini apakah ada tutorialnya? Case nya ingin mencocokkan teks dengan daftar nama objek semacam toko, masjid, dst
Menarik nih... Rasa2nya chatGPT bisa kasih tutorial lengkapnya sampe ke sample2 code-nya 😀 Selain itu, keknya pernah liat base lib-nya di github deh. Cmn waktu itu gak di save sih. So, find it, trial & error yah 🫰
Bang jika membuat sebuah logika pengecualian terhadap suatu kata agar tidak error di pyhton, soalnya di sastrawi : susi -> sus (harusnya : susi) bali -> bal (harusnya : bali)
pak izin mau nanya, penerapan unigram bigram trigram itu di tokenize atau bukan? saya dapet revisian kata pembimbing pembobotan make fitur itu, tapi di refrensi jurnal yg saya baca fitur tsb masuk kedalam tahap word tokenize. Mungkin ada referensi pengganti fitur pembobotan selain tfidf?mohon pencerahannya pak
Langsung aja ke inti pertanyaannya ya. Utk konteks analisa sentimen, maka setidaknya ada 9 pre-processing text mining, yaitu: 1. Cleansing (dari karakter non alfabet) 2. Translating (penyesuaian language) 3. Spelling normalization (perbaikan kata baku) 4. Case folding (penyeragaman huruf) 5. Tokenizing 6. n-Gram extraction 7. Stopword filtering 8. Stemming (kata dasar) 9. Sentiment scoring & labeling Pembobotannya bs menggunakan banyak metode, salah 1 nya bisa dengan NBC 👉 th-cam.com/video/ih9D9B1vz1c/w-d-xo.html
Bang, klo sumber link warta yang menjadi objek text diganti dengan file CSV yang sudah kita sediakan gimana? misal saya sudah menyediakan data scrape dari twitter dalam bentuk csv, tapi perlu di proses seperti video di atas. Thanks ilmunya
Kalo native library Py atau nltk yaaa ngga ada. Kalo utk objek research, ya banyak, beberapa diantaranya dituangkan di GitHub. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi. Happy research!
Rasa2nya Sastrawi blm diextend desainnya utk lemmatization Bahasa - CMIIW. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi
Pak izin bertanya, apakah dalam text processing, stopword bisa kita modif?, Maksudnya ada kata yg kita biarkan. Kalau memang bisa apakah ada referensinya?. Terima kasih.
Nice question! IMHO - stopword itu kan deretan kata dlm datalist. Prinsip modif yg paling logis itu bisa add/remove datalist (manual jar yg di unpack & repack) atau by function set(). Yg rumit? Blom pernah coba sih. Bisa jadi dengan (k-mean) clustering lanjut ke stemming. Tp feeling2 bakal ngefek ke performance.
Halo pak.. Kalau mau bikin library semacam sastrawi ini apakah ada tutorialnya? Case nya ingin mencocokkan teks dengan daftar nama objek semacam toko, masjid, dst
Menarik nih... Rasa2nya chatGPT bisa kasih tutorial lengkapnya sampe ke sample2 code-nya 😀
Selain itu, keknya pernah liat base lib-nya di github deh. Cmn waktu itu gak di save sih. So, find it, trial & error yah 🫰
Halo bg saya Subscribe baru
Halo & selamat datang di channel ini 🫰
Resume link video 17 algorithma Machine Learning:
A. Supervised Learning
Terbagi dalam 2 model:
1. Regression
* Linear (th-cam.com/video/3V_mdvRx5Zc/w-d-xo.html)
* Logistic (th-cam.com/video/MqZvStQrKAc/w-d-xo.html)
* Polynomial (th-cam.com/video/GdXy6qEPmVo/w-d-xo.html)
2. Classification
* K-Nearest Neighbors (KNN) (th-cam.com/video/0WpK5g4EOq4/w-d-xo.html)
* Decision Tree (DT) (th-cam.com/video/WVvLK6RwIoY/w-d-xo.html)
* Naive Bayes (NB) (th-cam.com/video/ih9D9B1vz1c/w-d-xo.html)
* Support Vector Machine (SVM) (th-cam.com/video/nE-2uG7RU28/w-d-xo.html)
B. Unsupervised Learning
Terbagi dalam 3 model & 2 metode (ML & DL):
A. Machine Learning
1. Clustering
* K-Means (th-cam.com/video/vlouPyMa1AA/w-d-xo.html)
* Hierarchical Clustering (th-cam.com/video/t_9WXQVC-q0/w-d-xo.html)
* T-SNE Clustering (th-cam.com/video/2sWGlS8Wnic/w-d-xo.html)
* DBScan (th-cam.com/video/gKQu31ZTB9g/w-d-xo.html)
2. Dimension Reduction
* Principal Component Analysis (th-cam.com/video/LoEtynX4NRk/w-d-xo.html)
* Anomaly Detection (th-cam.com/video/Hgl2wUTjxMI/w-d-xo.html)
* Auto-Encoder (th-cam.com/video/Y1xaiZpvR_c/w-d-xo.html)
* Hebbian Learning (th-cam.com/video/lQ3Tm5P7228/w-d-xo.html)
B. Deep Learning
Generative Models
* Generative Adversarial Network (th-cam.com/video/vHdoOOCGr0I/w-d-xo.html)
* Self Organizing Maps (th-cam.com/video/iVLixLtNYbk/w-d-xo.html)
Selamat mencoba & praktek ✌
Bang jika membuat sebuah logika pengecualian terhadap suatu kata agar tidak error di pyhton, soalnya di sastrawi :
susi -> sus (harusnya : susi)
bali -> bal (harusnya : bali)
Sebaiknya stopword di add di datalist ketimbang membuat exceptional logic
pak izin mau nanya, penerapan unigram bigram trigram itu di tokenize atau bukan? saya dapet revisian kata pembimbing pembobotan make fitur itu, tapi di refrensi jurnal yg saya baca fitur tsb masuk kedalam tahap word tokenize. Mungkin ada referensi pengganti fitur pembobotan selain tfidf?mohon pencerahannya pak
Langsung aja ke inti pertanyaannya ya. Utk konteks analisa sentimen, maka setidaknya ada 9 pre-processing text mining, yaitu:
1. Cleansing (dari karakter non alfabet)
2. Translating (penyesuaian language)
3. Spelling normalization (perbaikan kata baku)
4. Case folding (penyeragaman huruf)
5. Tokenizing
6. n-Gram extraction
7. Stopword filtering
8. Stemming (kata dasar)
9. Sentiment scoring & labeling
Pembobotannya bs menggunakan banyak metode, salah 1 nya bisa dengan NBC 👉 th-cam.com/video/ih9D9B1vz1c/w-d-xo.html
Bang, klo sumber link warta yang menjadi objek text diganti dengan file CSV yang sudah kita sediakan gimana? misal saya sudah menyediakan data scrape dari twitter dalam bentuk csv, tapi perlu di proses seperti video di atas. Thanks ilmunya
Prinsipnya input file diubah dgn teknik import file kayak di 👉 th-cam.com/video/emWBntUUc_w/w-d-xo.htmlsi=GqQMZ9WZMmZnhkWx
solusi lemmatization untuk bahsa indonesia gimana pak gk nemu klo bahasa inggris banyak
Kalo native library Py atau nltk yaaa ngga ada. Kalo utk objek research, ya banyak, beberapa diantaranya dituangkan di GitHub. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi. Happy research!
bikin lemmatization indonesian ver. kuy..
Izin bertanya, apakah untuk lemmatization bisa menggunakan sastrawi? Jika tidak apakah ada referensi untuk lemmatization indonesia?
Rasa2nya Sastrawi blm diextend desainnya utk lemmatization Bahasa - CMIIW. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi
Halo pak. Apa ada solusi untuk mempercepat proses stemming dengan sastrawi?
Hmm, bentar... issue nya apa ya?
Pak izin bertanya, apakah dalam text processing, stopword bisa kita modif?, Maksudnya ada kata yg kita biarkan. Kalau memang bisa apakah ada referensinya?. Terima kasih.
Nice question! IMHO - stopword itu kan deretan kata dlm datalist. Prinsip modif yg paling logis itu bisa add/remove datalist (manual jar yg di unpack & repack) atau by function set().
Yg rumit? Blom pernah coba sih. Bisa jadi dengan (k-mean) clustering lanjut ke stemming. Tp feeling2 bakal ngefek ke performance.