Guide Complet de Traitement des Données Manquantes en Python - Machine Learning

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 ส.ค. 2024

ความคิดเห็น • 39

  • @LeCoinStat
    @LeCoinStat  ปีที่แล้ว +3

    Lien vers le notebook: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/Missing_Data_Treatment.ipynb

  • @floriand.siakenyabou7446
    @floriand.siakenyabou7446 ปีที่แล้ว +1

    Magnifique comme d'habitude! Ceux qui suivent ne vont pas regretter. Merci Natacha!🙏

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      Oh merci beaucoup Florian!😇

  • @beullele2783
    @beullele2783 5 หลายเดือนก่อน

    Merci Natacha 👍. C’est une question que je me pose en tant que grand débutant…. C’est plus clair maintenant 🙏

    • @LeCoinStat
      @LeCoinStat  4 หลายเดือนก่อน

      Ravie d'avoir pu vous aider 😊

  • @Balm11
    @Balm11 5 หลายเดือนก่อน

    Simple éfficace bien expliqué et toujours avec une bonne énergie ! Merci Natacha

    • @LeCoinStat
      @LeCoinStat  5 หลายเดือนก่อน

      Oh merci beaucoup !

  • @quentinvansteenwinkel5250
    @quentinvansteenwinkel5250 ปีที่แล้ว

    Merci beaucoup pour tes explications, je suis en parcours en data, tu réussis à simplifier et à faire du pas à pas ce qui permet une meilleure compréhension 🙏

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว +1

      Merci pour ce beau retour😇

  • @marcienbalouboula2945
    @marcienbalouboula2945 5 หลายเดือนก่อน

    Le cours est juste parfait. Tu as un abonné en plus!!!!!!!

    • @LeCoinStat
      @LeCoinStat  4 หลายเดือนก่อน

      Oh merci beaucoup ça fait plaisir ❤️

  • @crespinlucquenum7372
    @crespinlucquenum7372 ปีที่แล้ว

    Merci madame pour ces éclaircissements 🙏

  • @saadiabouloudene6844
    @saadiabouloudene6844 6 หลายเดือนก่อน

    💪 Avec tes explications claires, je relève le défi des 100 jours de ML🙂

    • @LeCoinStat
      @LeCoinStat  6 หลายเดือนก่อน

      Bon courage

    • @LeCoinStat
      @LeCoinStat  6 หลายเดือนก่อน

      Bon courage pour le challenge 🚀🚀

  • @amadoufassa5866
    @amadoufassa5866 9 หลายเดือนก่อน

    C'est tout simplement excellent !!!

    • @LeCoinStat
      @LeCoinStat  9 หลายเดือนก่อน

      Merci Amadou

  • @marcienbalouboula2945
    @marcienbalouboula2945 4 หลายเดือนก่อน

    Encore une fois, merci pour ce guide complet!!!!!!
    Je suis en train de faire l'imputation. les données que je traite sont des dates. j'ai du mal à savoir qu'elle est la méthode d'imputation adaptée pour le type datetime et comment les transformer en valeurs numériques. J'ai essayé un model de régression et le KNN, mais je ne suis pas trop sur. Merci!

  • @tandian7
    @tandian7 ปีที่แล้ว

    Thank very myuch my teacher.

  • @Muslimgharib625
    @Muslimgharib625 8 หลายเดือนก่อน

    Merci beaucoup

    • @LeCoinStat
      @LeCoinStat  7 หลายเดือนก่อน

      De rien

  • @ludokiokolo5618
    @ludokiokolo5618 7 หลายเดือนก่อน

    Bonsoir Natacha, merci pour tes explications, c'est excellent. Comment faut-il procéder pour le remplacement des NaN quand il y'a en même temps les variables qualitatives et quantitatives dans le même dataframe?

  • @kevinkenang8992
    @kevinkenang8992 2 หลายเดือนก่อน

    Merci pour ce partage. Recemment j'ai eu une difficulté en ce qui concerne l'imputation de données manquantes sur des séries temporelles univariées; as tu une astuce ?

  • @AshukaMadeIt
    @AshukaMadeIt ปีที่แล้ว

    237 ISSEA representin' keep it up!❤❤❤

  • @mariamsy2987
    @mariamsy2987 ปีที่แล้ว

    Merci Madame Natacha très clair comme d'habitude j'ai une question
    Quand on a les données financières par exemple les données des marchés boursiers tu sais dans leur base de données il répéte les derniers cours durant les jours non ouvrables
    par exemple il répéte les cours de vendredi les jour samedi et dimanche.
    En tant que économetre comment régler ces données répétitives ?

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      Tout va dépendre de l'objectif de l'étude. Quel est l'objectif de ton projet?

  • @prosperepaulgloirengokouba353
    @prosperepaulgloirengokouba353 11 หลายเดือนก่อน

    Comment savoir dans la pratique en python si une variable donnée est MCAR, MAR ou MNAR ?
    Comment s'y prendre aussi dans la théorie ?

  • @user-ds7vk4kt3o
    @user-ds7vk4kt3o ปีที่แล้ว

    Bonjour,
    Concernant l'IterativeImputer et selon votre cours, on utilise les "autres variables" pour prédire la variable manquante.
    Ma première question est : quelles sont ces fameuses "autres variables" utilisées pour le calcul ? Les autres variables possédant des valeurs manquantes et passées en paramètres comme dans votre exemple : df_imputed = pd.DataFrame(imputer.fit_transform(df[['total_protein', 'rectal_temp', 'pulse']]), columns=['total_protein_imputed', 'rectal_temp_imputed', 'pulse_imputed']) ?
    Ou bien toutes les autres variables du dataframe exceptées celles passées en paramètres ?
    Deuxième question : je travaille sur un projet où j'ai une bonne centaine de variables contenant des données manquantes (au seuil < 30%) et éligibles à l'IterativeImputer, dois je travailler sur l'imputation de mes variables dans leur ensemble cad que je les mes toutes dans un tableau pd.DataFrame(imputer.fit_transform(df[toutes_mes_colonnes_a_imputer]), columns=toutes_mes_colonnes_imputees) ?
    ou bien je peux imputer par lot pd.DataFrame(imputer.fit_transform(df[mes_10_premieres_colonnes_a_imputer]), columns=mes_10_premieres_colonnes_imputees) ... jusqu'à
    pd.DataFrame(imputer.fit_transform(df[mes_10_dernieres_colonnes_a_imputer]), columns=mes_10_dernieres_colonnes_imputees) ?
    Merci par avance de vos réponses.

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      Hello il faut réaliser l'imputation avec les variables qui expliquent le phénomène. Après en matière d'imputation il ne faut pas toujours raisonner de façon systématique. La première question est pourquoi plus de 100 variables ont des valeurs manquantes? En fonction de cela la stratégie peut être différente.

  • @merlinengnietcha495
    @merlinengnietcha495 ปีที่แล้ว

    Hi Natasha, le jeu de données Horse est manquant ;)

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      Thanks c'est disponible ici: github.com/LeCoinStat/100JoursDeML/blob/main/03_Preprocessing/horse.csv

  • @warysmadia9074
    @warysmadia9074 ปีที่แล้ว

    Comment on fixe le nombre de k voisin stp ? Dans votre exemple vous avez choisi 3.

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว

      Excellente question ! Le choix du nombre de voisins 'k' pour l'algorithme des k se fait souvent par validation croisée. En gros on va tester plusieurs valeurs de k et choisir la valeur qui donne les meilleures performances suivant le critère qu'on aura choisi.

    • @warysmadia9074
      @warysmadia9074 ปีที่แล้ว

      @@LeCoinStat merci Natacha

  • @blaisekibonzi5019
    @blaisekibonzi5019 ปีที่แล้ว

    Bonjour Natacha c'est très clair comme d'hab. S'il te plait pourrais-tu remettre ici une invitation pour rejoindre le groupe Discord ? J'ai essayé l'ancien lien et il m'a mis que l'invitation a expiré.
    J'ai décidément pas de chance avec discord. J'ai déjà crée 2 comptes qu'il a désactivé trouvant les comptes "douteux". Je ne sais plus quoi faire, je rate des choses. Aurais-tu une autre solution à me proposer afin que je puisse rejoindre ce groupe ? Merci d'avance.

    • @LeCoinStat
      @LeCoinStat  ปีที่แล้ว +1

      Hello Blaise, voici le lien vers le Discord: discord.com/invite/RpyvkR7SfQ. Test celui normalement il marche. Tu as également le lien en description des vidéos