Tutorial Natural Language Processing Bahasa Indonesia dengan Sastrawi | Google Colab Python -

แชร์
ฝัง
  • เผยแพร่เมื่อ 8 พ.ย. 2024

ความคิดเห็น • 21

  • @ArifahTrisnawati
    @ArifahTrisnawati 6 หลายเดือนก่อน

    Halo pak.. Kalau mau bikin library semacam sastrawi ini apakah ada tutorialnya? Case nya ingin mencocokkan teks dengan daftar nama objek semacam toko, masjid, dst

    • @EkoWahyudiharto
      @EkoWahyudiharto  6 หลายเดือนก่อน

      Menarik nih... Rasa2nya chatGPT bisa kasih tutorial lengkapnya sampe ke sample2 code-nya 😀
      Selain itu, keknya pernah liat base lib-nya di github deh. Cmn waktu itu gak di save sih. So, find it, trial & error yah 🫰

  • @badarmuhamad2135
    @badarmuhamad2135 ปีที่แล้ว

    Halo bg saya Subscribe baru

    • @EkoWahyudiharto
      @EkoWahyudiharto  ปีที่แล้ว +1

      Halo & selamat datang di channel ini 🫰
      Resume link video 17 algorithma Machine Learning:
      A. Supervised Learning
      Terbagi dalam 2 model:
      1. Regression
      * Linear (th-cam.com/video/3V_mdvRx5Zc/w-d-xo.html)
      * Logistic (th-cam.com/video/MqZvStQrKAc/w-d-xo.html)
      * Polynomial (th-cam.com/video/GdXy6qEPmVo/w-d-xo.html)
      2. Classification
      * K-Nearest Neighbors (KNN) (th-cam.com/video/0WpK5g4EOq4/w-d-xo.html)
      * Decision Tree (DT) (th-cam.com/video/WVvLK6RwIoY/w-d-xo.html)
      * Naive Bayes (NB) (th-cam.com/video/ih9D9B1vz1c/w-d-xo.html)
      * Support Vector Machine (SVM) (th-cam.com/video/nE-2uG7RU28/w-d-xo.html)
      B. Unsupervised Learning
      Terbagi dalam 3 model & 2 metode (ML & DL):
      A. Machine Learning
      1. Clustering
      * K-Means (th-cam.com/video/vlouPyMa1AA/w-d-xo.html)
      * Hierarchical Clustering (th-cam.com/video/t_9WXQVC-q0/w-d-xo.html)
      * T-SNE Clustering (th-cam.com/video/2sWGlS8Wnic/w-d-xo.html)
      * DBScan (th-cam.com/video/gKQu31ZTB9g/w-d-xo.html)
      2. Dimension Reduction
      * Principal Component Analysis (th-cam.com/video/LoEtynX4NRk/w-d-xo.html)
      * Anomaly Detection (th-cam.com/video/Hgl2wUTjxMI/w-d-xo.html)
      * Auto-Encoder (th-cam.com/video/Y1xaiZpvR_c/w-d-xo.html)
      * Hebbian Learning (th-cam.com/video/lQ3Tm5P7228/w-d-xo.html)
      B. Deep Learning
      Generative Models
      * Generative Adversarial Network (th-cam.com/video/vHdoOOCGr0I/w-d-xo.html)
      * Self Organizing Maps (th-cam.com/video/iVLixLtNYbk/w-d-xo.html)
      Selamat mencoba & praktek ✌

  • @arthatirtayasa4667
    @arthatirtayasa4667 ปีที่แล้ว

    Bang jika membuat sebuah logika pengecualian terhadap suatu kata agar tidak error di pyhton, soalnya di sastrawi :
    susi -> sus (harusnya : susi)
    bali -> bal (harusnya : bali)

    • @EkoWahyudiharto
      @EkoWahyudiharto  ปีที่แล้ว

      Sebaiknya stopword di add di datalist ketimbang membuat exceptional logic

  • @derryljunior5644
    @derryljunior5644 ปีที่แล้ว +1

    pak izin mau nanya, penerapan unigram bigram trigram itu di tokenize atau bukan? saya dapet revisian kata pembimbing pembobotan make fitur itu, tapi di refrensi jurnal yg saya baca fitur tsb masuk kedalam tahap word tokenize. Mungkin ada referensi pengganti fitur pembobotan selain tfidf?mohon pencerahannya pak

    • @EkoWahyudiharto
      @EkoWahyudiharto  ปีที่แล้ว +1

      Langsung aja ke inti pertanyaannya ya. Utk konteks analisa sentimen, maka setidaknya ada 9 pre-processing text mining, yaitu:
      1. Cleansing (dari karakter non alfabet)
      2. Translating (penyesuaian language)
      3. Spelling normalization (perbaikan kata baku)
      4. Case folding (penyeragaman huruf)
      5. Tokenizing
      6. n-Gram extraction
      7. Stopword filtering
      8. Stemming (kata dasar)
      9. Sentiment scoring & labeling
      Pembobotannya bs menggunakan banyak metode, salah 1 nya bisa dengan NBC 👉 th-cam.com/video/ih9D9B1vz1c/w-d-xo.html

  • @lukmanulhakim1758
    @lukmanulhakim1758 ปีที่แล้ว

    Bang, klo sumber link warta yang menjadi objek text diganti dengan file CSV yang sudah kita sediakan gimana? misal saya sudah menyediakan data scrape dari twitter dalam bentuk csv, tapi perlu di proses seperti video di atas. Thanks ilmunya

    • @EkoWahyudiharto
      @EkoWahyudiharto  ปีที่แล้ว

      Prinsipnya input file diubah dgn teknik import file kayak di 👉 th-cam.com/video/emWBntUUc_w/w-d-xo.htmlsi=GqQMZ9WZMmZnhkWx

  • @arroziirfan7109
    @arroziirfan7109 6 หลายเดือนก่อน

    solusi lemmatization untuk bahsa indonesia gimana pak gk nemu klo bahasa inggris banyak

    • @EkoWahyudiharto
      @EkoWahyudiharto  6 หลายเดือนก่อน

      Kalo native library Py atau nltk yaaa ngga ada. Kalo utk objek research, ya banyak, beberapa diantaranya dituangkan di GitHub. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi. Happy research!

    • @fariziilham9736
      @fariziilham9736 4 หลายเดือนก่อน

      bikin lemmatization indonesian ver. kuy..

  • @garpu3586
    @garpu3586 ปีที่แล้ว

    Izin bertanya, apakah untuk lemmatization bisa menggunakan sastrawi? Jika tidak apakah ada referensi untuk lemmatization indonesia?

    • @EkoWahyudiharto
      @EkoWahyudiharto  ปีที่แล้ว

      Rasa2nya Sastrawi blm diextend desainnya utk lemmatization Bahasa - CMIIW. Salah 1 library yg bisa mendukung utk itu adalah SpaCy - AFAIK - plus minus comparable to Sastrawi

  • @Apakek
    @Apakek ปีที่แล้ว

    Halo pak. Apa ada solusi untuk mempercepat proses stemming dengan sastrawi?

  • @lemoniall6553
    @lemoniall6553 2 ปีที่แล้ว

    Pak izin bertanya, apakah dalam text processing, stopword bisa kita modif?, Maksudnya ada kata yg kita biarkan. Kalau memang bisa apakah ada referensinya?. Terima kasih.

    • @EkoWahyudiharto
      @EkoWahyudiharto  2 ปีที่แล้ว +1

      Nice question! IMHO - stopword itu kan deretan kata dlm datalist. Prinsip modif yg paling logis itu bisa add/remove datalist (manual jar yg di unpack & repack) atau by function set().
      Yg rumit? Blom pernah coba sih. Bisa jadi dengan (k-mean) clustering lanjut ke stemming. Tp feeling2 bakal ngefek ke performance.