Text Cleaning / Text Pre-Processing menggunakan Python

แชร์
ฝัง
  • เผยแพร่เมื่อ 24 ต.ค. 2024

ความคิดเห็น • 61

  • @sandrafitri4973
    @sandrafitri4973 2 ปีที่แล้ว

    Sangatt berguna pak. Terimakasih bnyk

  • @alifhiadhiyaherlia2188
    @alifhiadhiyaherlia2188 ปีที่แล้ว

    mau nanya kak, yng ditahap remove_pattern kan isinya input_txt dan pattern, nah saya ambil dari google play bukan tweet, untuk input _txt nya diganti jadi apa ya?

  • @kemalidris6476
    @kemalidris6476 2 ปีที่แล้ว

    maaf pak izin bertanya , jika ada error " expected string or bytes-like object " di bagian menghilangkan akun/tanda @ itu gimana ya? mohon solusinya terimakasih

  • @rizkisyafaat4892
    @rizkisyafaat4892 3 ปีที่แล้ว

    ketika kasusnya seperti "makin rame dimari.orang bandung sudah tidak betah di rumah" kondisi ketika tanda titik diapit oleh kata tanpa spasi gimana ya kak

  • @affantsany5844
    @affantsany5844 2 ปีที่แล้ว

    kalau mengatasi typo kata gimana bang ya? atau singkatan kata kayak "bgt" yg harusnya banget.

  • @destriputriyani8916
    @destriputriyani8916 2 ปีที่แล้ว

    Pas tweet_pf = load_data() error itu gimana ya bg?

  • @elevenproject_
    @elevenproject_ 3 ปีที่แล้ว +1

    di bagian df['tweet_clean'] = df['remove_http'].apply(lambda x: clean_tweets(x)) , module yang digunakan apa ya kak, punya saya eror TypeError: descriptor 'lower' requires a 'str' object but received a 'unicode'

    • @Sarikhin
      @Sarikhin  3 ปีที่แล้ว

      Coba gunakan encoding utf-8, kalo ngga coba ubah object nya pake builtin function str

    • @Sarikhin
      @Sarikhin  3 ปีที่แล้ว

      Kalau mau bantuan bisa hubungin saya lewat ig

    • @elevenproject_
      @elevenproject_ 3 ปีที่แล้ว

      Siap terimakasih

  • @mochhalimifirdausi7894
    @mochhalimifirdausi7894 ปีที่แล้ว

    makasi bang semoga bermanfaat

  • @mweh.48
    @mweh.48 4 ปีที่แล้ว +1

    last step saya malah muncul angka doang tidak ada tweet, knp ya ?

    • @Sarikhin
      @Sarikhin  4 ปีที่แล้ว

      Last step yang bagian apa ya gan ?

  • @lemoniall6553
    @lemoniall6553 2 ปีที่แล้ว

    Mas izin bertanya, apakah dalam text processing, stopword bisa kita modif?, Maksudnya ada kata yg kita biarkan. Kalau memang bisa apakah ada referensinya?. Terima kasih.

  • @nikomangrustini7553
    @nikomangrustini7553 ปีที่แล้ว

    Cara import data penjualan yg jumlahnya ribuan dalam sebulan itu gmn ya kak? Mau import data dari th 2018-2022 data dari bln januari-desember.
    Sempet nyoba import data klo trus upload filenya manual bukaannya lama prosesnya ya kak? Kira2 cara nya gmn kak

  • @abhiramasaputra4899
    @abhiramasaputra4899 ปีที่แล้ว

    kalo mau di lematisisasi/lematizer gimana ya mas caranya??

  • @eyliensyamsyum5165
    @eyliensyamsyum5165 2 ปีที่แล้ว

    terimakasih sir, sangat membantu

    • @Sarikhin
      @Sarikhin  2 ปีที่แล้ว

      Sama-sama 👍

    • @Game_Studio-w9p
      @Game_Studio-w9p 3 หลายเดือนก่อน

      ​@@Sarikhinbang, kalo mau buat kolom yg berisi data tulisan di ubah ke angka itu gimn? Misal: kolom A: "tv samsung smart tv lcd 55 inch" itu mau diubah ke angka 1 miasalnya itu gimn??

  • @rahmahwulan5136
    @rahmahwulan5136 3 ปีที่แล้ว

    Kalau ketemu kata slang atau singkatan gitu gimana ya? Apa ada library tersendiri atau kita bikin file kamus kata sendiri? Mohon pencerahannya

  • @syahrulhanas25
    @syahrulhanas25 2 ปีที่แล้ว

    sangat bermanfaat bang..mau tanya untuk pengunaan stopword d video tersendiri gak bang?

  • @_SholihatulFitri
    @_SholihatulFitri 3 ปีที่แล้ว

    Kak untuk melakukan proses ini library apa aja ya yang harus di install?

  • @yogawijaya8349
    @yogawijaya8349 3 ปีที่แล้ว +1

    ijin bertanya, jdi saya sudah melakukan crawling data di twitter, trs masuk tahap cleaning, tapi di RT(retweet) ko ada b'RT ya itu kenapa ya? trs ngilanginnya gmna ? soalnya pas tahap cleaning retweet jdi mengganggu hasilnya. saya kurang paham mohon penjelasanya kang :)

    • @Sarikhin
      @Sarikhin  3 ปีที่แล้ว

      Bisa hubungi saya di instagram gan

    • @Sarikhin
      @Sarikhin  3 ปีที่แล้ว

      Saya pingin liat errornya

    • @yogawijaya8349
      @yogawijaya8349 3 ปีที่แล้ว

      Siap kang makasih 🙏

    • @barnesmanurung5090
      @barnesmanurung5090 2 ปีที่แล้ว

      @@Sarikhin Nama ig nya apa mas?

  • @norsyafira8450
    @norsyafira8450 3 ปีที่แล้ว

    Hi, kalau guna bahasa english sastrawi itu kena tukar apa yee?

  • @aldojuliandra6584
    @aldojuliandra6584 4 ปีที่แล้ว +1

    Angka angka yang file yg sudah di cleaning itu apa? Trus cara ngilanginya gimana

    • @Sarikhin
      @Sarikhin  4 ปีที่แล้ว

      Angka angka nya biasanya dari tweet hasil crawling dan cara ngilanginnya bisa pake syntax python yang sudah saya sediakan di descripsi

    • @aldojuliandra6584
      @aldojuliandra6584 4 ปีที่แล้ว

      Bang boleh minta nomor wa saya ada yang mau saya tanya

    • @Sarikhin
      @Sarikhin  4 ปีที่แล้ว

      Ke IG aja ya di @ikhintech

  • @__xxdrn9125
    @__xxdrn9125 2 ปีที่แล้ว

    link sama emotnya masih ada bangg:(

  • @Aditprayogo18
    @Aditprayogo18 2 ปีที่แล้ว

    Terima kasih membantu sekali, kalau di dataset saya, resultnya masih ada hasil regex kayak gini xf xf xf xf xad sch xe xc xe xbb xe xbb xe xbb xf xf xa, ini gimana cara ngehilangin nya ya mas ? tak decode ascii juga sama aja.

  • @yogawijaya8349
    @yogawijaya8349 3 ปีที่แล้ว

    bang ini tahapan text preprocesingnya, ada stopword, stemming, sm case folding?

    • @Sarikhin
      @Sarikhin  3 ปีที่แล้ว

      Iya bang

    • @iqbalkhairuddinseptiana9353
      @iqbalkhairuddinseptiana9353 3 ปีที่แล้ว

      @@Sarikhin kalau casefolding nya itu dibagian mananya ya? yg sy temuin cuma tokenizing, stopword removal, sama stemming.

  • @muhammaddeva9793
    @muhammaddeva9793 3 ปีที่แล้ว

    Mas ingin bertanya kenapa pas hapus RT disini tidak terhapus ya ?

  • @chatrinemanurung8483
    @chatrinemanurung8483 3 ปีที่แล้ว +1

    Misi mas mau nanya. Untuk preprocessing Apk gimana ya

    • @Sarikhin
      @Sarikhin  3 ปีที่แล้ว

      Maaf sis, bisa di perjelas lagi pertanyaan nya ?

  • @exssemsame7469
    @exssemsame7469 ปีที่แล้ว

    Makasih baang

  • @adityawelly
    @adityawelly 4 ปีที่แล้ว

    Kalau cara mengubah emoticon menjadi teks gimana ya ka? Contohnya "aku laper :(" berubah jadi "aku laper sedih"

    • @Sarikhin
      @Sarikhin  4 ปีที่แล้ว

      Kalau itu di syntax python nya yang harus di ubah

  • @daffasetiawan3941
    @daffasetiawan3941 4 ปีที่แล้ว

    mau tanya mas, untuk dataset tweet nya dapatnya gimana ?

    • @Sarikhin
      @Sarikhin  4 ปีที่แล้ว

      Dari crawling ada di video saya lain nya untuk tutor nya

  • @sofiemutiaafifah9865
    @sofiemutiaafifah9865 3 ปีที่แล้ว

    Cara menghapus enter dan tab dijadiin whitespace gimna yaa

    • @Sarikhin
      @Sarikhin  3 ปีที่แล้ว

      coba pake split(“
      ”) untuk hapus enternya
      Lebih jelasnya lihat ini
      stackoverflow.com/questions/40705480/python-pandas-remove-everything-after-a-delimiter-in-a-string

  • @tiaraprastiwi8403
    @tiaraprastiwi8403 3 ปีที่แล้ว

    bang sastrawinya kok ngak ke baca ya ? solusinya plis

    • @zaqycans3804
      @zaqycans3804 2 ปีที่แล้ว

      izin bantu jawab bang, instal dlu sastrawinya kak .., pip install PySastrawi

  • @qoryandaniprasasti3791
    @qoryandaniprasasti3791 3 ปีที่แล้ว

    ada yang bisa bantu gak ya, waktu remove user eror dengan keterangan : TypeError: expected string or bytes-like object dan kolom baru untuk remove_user ga muncul
    semoga ada yang bisa kasih solusi
    terimakasih

    • @yogawijaya8349
      @yogawijaya8349 3 ปีที่แล้ว

      datanya ubah dulu k string ka

    • @muhammaddeva9793
      @muhammaddeva9793 3 ปีที่แล้ว

      Errornya sama kaya gini, Ada tips kah biar ga terjadi kaya gini ?

    • @fitriamelia6849
      @fitriamelia6849 3 ปีที่แล้ว +1

      @@yogawijaya8349 caranya gimana ya kak? saya juga ada error yang sama

    • @yogawijaya8349
      @yogawijaya8349 3 ปีที่แล้ว

      @@fitriamelia6849 error nya yg mana?

    • @marshallkwando381
      @marshallkwando381 3 ปีที่แล้ว

      Sama , ada yang bisa jelasin lebih lanjut kah?