TRANSFORMATION OU ENCODAGE DE VARIABLES QUALITATIVES EN VARIABLES NUMERIQUES

แชร์
ฝัง
  • เผยแพร่เมื่อ 3 ต.ค. 2024
  • TRANSFORMATION OU ENCODAGE DE VARIABLES QUALITATIVES EN VARIABLES NUMERIQUES [ NETTOYAGE DE DONNEES, PREPARATION DE DONNEES, DATA PRE-PROCESSING ] , DECOUVRIR LES 3 PRINCIPALES METHODES(OneHotEncoder, OrdinalEncoder et Get_dummies) POUR ENCODER(C'EST A DIRE LA TRANSFORMATION) DES VARIABLES QUALITATIVES EN VARIABLES QUANTITATIVES. IL S'AGIT D'UNE ETAPE INDISPENSABLE POUR MANIPULER DES EQUATIONS MATHEMATIQUES.
    #datapreparation #openclass4all #datacleaning
    L'encodage est relativement simple, mais ça necessite une attention particuliere, car les performances des modèles de machine learning dependent très fortement de la qualité des données qui lui sont fournies en entrée, c’est pourquoi, il faut bien préparer les données pour obtenir un modèle avec des performances élevées.
    Pour cela, il y a plusieurs étapes préalables à respecter parmi lesquelles, l’imputation des valeurs manquantes, la détection des valeurs extrêmes pour éviter qu’elles écrasent trop les autres observations, la normalisation, la sélection des variables, etc, bref il y a beaucoup d’opérations à réaliser avant l’ultime étape d’analyses et de prédiction, dans cette partie, on s’interresse justement à l’une de ces étapes, l’encodage des variables qualitatives.
    Alors, à votre avis, que signifie “ENCODER LES VARIABLES ?”
    Eh bien, pour entraîner un modele il faut des données numériques(c’est à dire des colonnes ayant pour valeurs des entiers ou réels), car, nous ne pouvons malheureusement pas faire de calcul avec du texte, il faut donc TRANSFORMER ces variables qualitatives en variables pseudo-quantitatives afin de pouvoir les écrire dans une équation mathématique et cette TRANSFORMATION est appelée “ENCODAGE”.
    A la fin de cette séquence, vous saurez quel transformer faut-il utiliser pour quelle type de variables et désormais en faire le bon usage et je vous montre aussi comme bonus comment écrire vos propres fonctions, afin de regrouper un ensemble d’étapes que vous réaliserez plus facilement.
    Une variable qualitative est soit ordinale, soit nominale. Prenons deux exemples très illustratifs:
    Imaginez qu’une colonne de votre dataset porte sur une COULEUR, ayant pour modalité Noir, Blanc, Bleu, Rouge, Jaune, on peut constater qu’il est impossible d’établir un quelconque ordre entre les différentes modalités, c’est à dire les valeurs prises par cette variable que sont (Noir, Blanc, Bleu, Rouge, Jaune), cette variable COULEUR est donc qualitative NOMINALE.
    Par contre, il existe très clairement un certain ordre entre les différentes modalités de la variable MENTION prenant comme valeurs (Excellent, Bien, Très bien, Bien, Assez-bien, Passable), Excellent c’est toujours mieux que Très-bien et que tres-bien est préféré par rapport à bien ainsi de suite et on finit par passable, la variable MENTION est donc qualitative ORDINALE.
    Procédure à suivre pour appliquer la fonction get_dummies qui nous viens de PANDAS :
    1. Lister toutes les variables à encoder
    2. Les encoder puis supprimer les demi-variables
    3. Concaténer les colonnes encodées du nouveau dataset au dataset initial et supprimer les variables originelles
    4. Ecrire notre propre fonction d’encodage pour regrouper toutes les opérations précédentes pour
    faire une pierre deux coups. De cette façon vous organisez votre code, gagner du temps et faire moins d’erreurs possible.
    REJOINDRE LA COMMUNAUTÉ: / @openclass4all
    MON PROFIL LINKEDIN: / ousman-hamit-hassani
    PLAYLISTS(FORMATIONS) A REGARDER ET COMMENTER ABSOLUMENT:
    1. ANALYSEEXPLORATION DE DONNEES
    • Visualisation de donnees
    2. DATA PRE-PROCESSING:
    • TRAITER LES VALEURS AB...
    3. MODELE DE MACHINE LEARNING:
    • REGRESSION LINEAIRE - ...
    4. VIDEOS TUTORIELLES (PRISE EN MAIN DE JUPYTER NOTE BOOK):
    • Maitriser les raccourc...
    ✅ GitHub 👉 github.com/ous...

ความคิดเห็น • 72