Pertemuan 3 - Preprocessing Data dengan Python | Kuliah Online Data Mining 2021 | Python Data Mining

แชร์
ฝัง
  • เผยแพร่เมื่อ 7 ก.ย. 2024
  • Kuliah Online Data Mining tentang Preprocessing Data menggunakan Python. Mudah belajar Python untuk Data Mining.
    Download data yang digunakan :
    drive.google.c...
    Terimakasih sudah mengikuti kuliah online & tutorialnya.
    Subscribe, Share, Like dan Comment jika dirasa bermanfaat, untuk terus mendukung channel ini.
    Kunjungi video perkuliahan lainnya di:
    / juntazeniarja​
    #KuliahOnline​ #DiRumahAja​ #SamaSaya​ #DataMining​ #DataMining2021 #DataMiningBasic​ #DataMiningIndonesia​ #DataMiningTutorial​ #DataMiningRapidminer​ #DataMiningClassification​ #DataMiningConcept​ #DataMiningAlgorithm​ #DataMiningTechniques​ #DataMiningBusiness​ #Rapidminer​ #RapidminerStudio​ #RapidminerIndonesia​ #RapidminerBasics​ #RapidminerTutorial​ #RapidminerAutoModel​ #RapidminerDataMiningTutorial​ #Python #DataScience #DataScience2021 #DataScienceIndonesia #JuntaZeniarja

ความคิดเห็น • 30

  • @solihkhinmustofa8381
    @solihkhinmustofa8381 ปีที่แล้ว +1

    assalumualaikum.., pak junta., lihat konten dan materi nya., langsung tahu ini sahabat seperdjoengan., salam satu perguruan RSW...

    • @juntazen
      @juntazen  ปีที่แล้ว

      wa'alaikumsalam, salam seperdjoengan mas Solihkhin

  • @vikiwahyudi2860
    @vikiwahyudi2860 ปีที่แล้ว

    Terimakasih pak

  • @unknown-xp5qw
    @unknown-xp5qw ปีที่แล้ว +2

    maaf pak data tidak terjadi missing value tetapi ketika mengimplementasikan misal dg menggunakan algo. naive bayes 2 label mendapatkan hasil 0 semua. solusinya bagaimana ya pak

    • @juntazen
      @juntazen  ปีที่แล้ว

      Jika hasil prediksi menggunakan algoritma Naive Bayes mendapatkan nilai 0 semua, bisa jadi terdapat masalah pada pembagian data training dan testing. Salah satu solusinya adalah dengan memastikan bahwa data yang digunakan untuk training dan testing telah terdistribusi dengan baik dan mewakili semua kemungkinan nilai pada setiap fitur.
      Selain itu, dapat juga dilakukan pengecekan terhadap model Naive Bayes yang digunakan. Mungkin model yang digunakan tidak cocok dengan data yang digunakan, sehingga perlu memilih model yang lebih sesuai dengan data.
      Selain itu, bisa juga dicoba menggunakan algoritma klasifikasi lain yang lebih cocok dengan data yang dimiliki, seperti Decision Tree, Random Forest, atau Support Vector Machine (SVM).
      Jika hal tersebut tidak memperbaiki hasil prediksi, maka bisa jadi data tidak memiliki korelasi dengan variabel target sehingga tidak bisa digunakan untuk memprediksi variabel target dengan model tertentu. Dalam hal ini, perlu dilakukan analisis lebih lanjut untuk mencari tahu apakah memang ada korelasi antara variabel prediktor dan variabel target.

  • @Edogawa271
    @Edogawa271 2 ปีที่แล้ว

    pak caranya menyimpan hasil normalisasinya ke dalam file csv bagaimana ? data x_test dan x_train ke dalam file csv

  • @dcb5911
    @dcb5911 2 ปีที่แล้ว +1

    Mau tanya pak, apakah bisa preprocessing data ini di buatkan dalam bentujk aplikasi? Contoh ke dalam streamlit

    • @juntazen
      @juntazen  2 ปีที่แล้ว

      bisa mas

  • @angganugraha8631
    @angganugraha8631 2 ปีที่แล้ว

    Mau tanya pak, kalo mau mentranformasi nilai di atribut yang ada di xtrain nya lebih dari satu kolom gimana pak.? Misal untuk kolom jenis kelamin, status pernikahan, dan agama di transformasi sekaligus

    • @juntazen
      @juntazen  2 ปีที่แล้ว

      bisa dibuatkan list atau fungsi tersendiri

  • @bassss780
    @bassss780 2 ปีที่แล้ว

    Terima kasih pak atas ilmunya. Izin bertanya kalo boleh tau tujuan dr training and test apa ya, apakah training and test adalah prosedur wajib preprocessing? Dan untuk scaling, apakah dgn melakukan scaling masih cukup signifikan untuk mempresentasikan modelnya? Terima kasih pak

    • @juntazen
      @juntazen  2 ปีที่แล้ว

      tidak wajib, disesuaikan dengan data yang digunakan, scaling digunakan dan cuku[ signifikan jika dirasa jarak range terlalu besar diantara datanya.

    • @latifahiriani817
      @latifahiriani817 2 ปีที่แล้ว

      @@juntazen maksudnya scaling itu apa kah outlier pak?

  • @damarjatisuryakusuma6572
    @damarjatisuryakusuma6572 ปีที่แล้ว

    Saya mau tanya Pak, kalau untuk menghapus record yang ada missing value (nan tadi di python) itu untuk codenya bagaimana ya Pak? terimakasih

    • @juntazen
      @juntazen  ปีที่แล้ว

      bisa menggunakan perintah => df.dropna()
      df => dataframe
      Secara default perintah dropna() akan menghapus semua baris yang mengandung nilai NaN.

  • @jefrijaya1960
    @jefrijaya1960 ปีที่แล้ว

    pak minta ppt pertemuan 1 sampai akhir dong pak

  • @nikomangrustini7553
    @nikomangrustini7553 ปีที่แล้ว

    Ijin bertanya pak, untuk data kategorikal yg missing valuesnya mencapai ribuan itu bisa pakai modus juga?

    • @juntazen
      @juntazen  ปีที่แล้ว

      Memakai modus sebagai imputasi (pengisian) data yang hilang pada variabel kategorikal bisa jadi pilihan yang tepat, namun tergantung pada karakteristik data tersebut.
      Namun, perlu diperhatikan bahwa penggunaan modus hanya cocok untuk data kategorikal yang memiliki distribusi frekuensi yang seimbang, yaitu setiap nilai muncul dengan frekuensi yang relatif sama. Jika distribusi frekuensi tidak seimbang, maka penggunaan modus dapat menghasilkan bias pada data.
      Selain penggunaan modus, terdapat beberapa metode lain yang dapat digunakan untuk mengisi missing value pada data kategorikal, seperti metode hot-deck dan cold-deck, serta teknik regresi. Pilihan metode yang digunakan harus disesuaikan dengan karakteristik data yang dimiliki dan tujuan analisis yang ingin dicapai.

  • @riskadwiayulestari9883
    @riskadwiayulestari9883 2 ปีที่แล้ว

    ingin bertanya pak, menurut bapak dataset split yg ideal itu bagaimana?

    • @juntazen
      @juntazen  2 ปีที่แล้ว

      Biasanya menurut beberapa artikel bisa menggunakan aturan 70/30 dmana 70% utk training dan 30% utk testing. Tetapi boleh juga menggunakan aturan 80/20 karna ada beberapa artikel yg menggunakannya mb. Jadi bisa menggunakan aturan yg 70/30 atau 80/20.

  • @hadikustiyawan4949
    @hadikustiyawan4949 3 ปีที่แล้ว

    saya mau tanya pak, pas saya cek dengan print(x), malah hasil nya ndak nampak pak kosongan gitu cuma muncul [ ], kalau pakai print(y) baru muncul data nya pak?, yang salah apa itu pak??

    • @juntazen
      @juntazen  3 ปีที่แล้ว

      th-cam.com/video/3tDOYGDv8Ao/w-d-xo.html
      Coba mas dicek kembali apakah sudah benar atau sesuai untuk penulisan kodingnya ( x = dataset.iloc[:, :-1].values ). Atau mungkin salah di data.csv nya.
      Download data yang digunakan:
      drive.google.com/file/d/1AV5VsLiqurXMfT5zMuqPiMcOhKZmyJSZ/view?usp=sharing

  • @bagaskurniarahman4307
    @bagaskurniarahman4307 3 ปีที่แล้ว

    Nanya pak, saya memakai VS code untuk editor nya, pas saat import library nya kok malah eror ya pak , sy juga udah instal python versi terbaru di websitenya🙏..

    • @juntazen
      @juntazen  3 ปีที่แล้ว

      Perlu diinstal dl librarynya mas yg sdh dipanggil. Misal kalau numpy, diinstal dl dr command prompt => pip install numpy, dst sesuai dengan library yg dipanggil.

    • @ammaramjad1180
      @ammaramjad1180 2 ปีที่แล้ว

      Untuk itu caranya bagaimana pak, tolong jelaskan🙏🏻

    • @juntazen
      @juntazen  2 ปีที่แล้ว +1

      Ada 2 cara untuk install library di python mas: bisa menggunakan PIP di command prompt atau bisa menggunakan CONDA. Kalau saya biasanya menggunakan PIP caranya: buka Command Prompt dan pastikan sudah terinstall python. Kemudian ketikkan : *pip install * => misal untuk install numpy => *pip install numpy*; untuk install pandas => *pip install pandas* dst

  • @choirudinemcha
    @choirudinemcha 2 ปีที่แล้ว

    Kenapa normalisasinya di akhir setelah train test split?

    • @juntazen
      @juntazen  2 ปีที่แล้ว

      bisa dilakukan sebelum atau sesudah nya mas, kalau dalam hal ini saya lebih mudah kalau sudah saya bagi terlebih dahulu dalam data training dan data testing sehingga kita bisa membedakan antara data sebelum dinormalisasi dan sesudah dinormalisasi (bisa membandingkan antara x, x_train dan x_test). Tergantung dari kebutuhan analisa yang ingin dilakukan mas.

  • @faridwahyu9073
    @faridwahyu9073 ปีที่แล้ว

    bang minta kodenya

    • @juntazen
      @juntazen  ปีที่แล้ว +2

      bisa dicek disini kak => colab.research.google.com/drive/10XFU5-FJT5ARFwZX_M80VTHOIWUK3G5G?usp=sharing