DETECTER LES VALEURS ABERRANTES OU OUTLIERS

แชร์
ฝัง
  • เผยแพร่เมื่อ 24 พ.ย. 2020
  • DETECTER LES VALEURS ABERRANTES OU OUTLIERS[NETTOYAGE DES DONNEES/DATA PREPROCESSING/DATA CLEANING], découvrir une méthode graphique, simple, qui vous permet de detecter l’ensemble des valeurs aberrantes(anomaly detection machine learning ou detection des anomalies en machine learning) d’une serie statistique, de les visualiser en un clin d’oeul. Mais à votre avis, qu’est-ce qu’une valeur aberrante ?
    Eh bien, une valeur aberrante est une valeur extrême ou une anomalie qui peut être décrite comme une donnée qui s’écarte trop du reste des observations, c’est à dire elle se distingue nettement des autres.
    #datapreparation #openclass4all #datacleaning
    Si par exemple, votre étude porte sur la clientelle d’un super marché ou d’une grande surface quelconque, les valeurs aberrantes seraient alors les clients qui se situent dans aucune categorie, n’ayant pas des carateristiques commune avec les autres observations, comme nous le montre cet exemple(dans quel le point rouge et le poin vert n’ont rien en commun avec les autres, ce sont des valeurs aberrantes), cela peut se traduire par le comportement inahabituel d’achat réalisés par ces derniers etc …
    Dans tous les cas, il convient de les traiter correctement avant d’effectuer les analyses statistiques, car ces valeurs extrêmes, appelées aussi OUTLIERS peuvent impacter significativement les résultats de votre analyse et aboutir trés probablement à une conclusion totalement erronée ou du moins déformée.
    Merci donc de regarder jusqu’à la fin de cette vidéo, car l’objectif n’est pas juste d’écrire un algorithme pour les détecter mais aussi de bien comprendre la formulation mathématique du problème avant de coder
    D’abord, ça sert à quoi le diagramme de boite à moustaches / ou box plot ?
    Il sert à comparer deux groupes de données, il permet de voir sur un graphique la dispersion, l’étalement de données, ça permet de répondre à des questions comme quel est le groupe ou les données sont plus homogènes / hétérogènes etc …
    L’idée de base c’est de repartir l’information en 4 parties égales appelés quartiles ou bien paramètres de dispersion de données, avec Q1 premier quartile, la médiane qui se confond avec le deuxième quartile Q2 et Q3 le troisième quartile,
    On a donc un rectangle dont la largeur est l’écart inter-quartile(c’est à dire la différence entre Q3 et Q1), sa hauteur n’est pas porteur d’information, donc ça ne nous intéresse pas, ce rectangle est délimité par deux segments auxquels on fixe deux limites, une limite inférieur( Q1 - 1.5*EIQ) et une limite supérieur( Q3+1.5*EIQ) pour voir à quelle distance les valeurs qui débordent de deux cotés, par consequant toute observation qui se trouve au delà est considérée comme une valeur extrême, les points à l’extremites de chaque segments sont donc des valeurs aberrantes.
    REJOINDRE LA COMMUNAUTÉ: / @openclass4all
    MON PROFIL LINKEDIN: / ousman-hamit-hassani
    PLAYLISTS(FORMATIONS) A REGARDER ET COMMENTER ABSOLUMENT:
    1. ANALYSEEXPLORATION DE DONNEES
    • Visualisation de donnees
    2. DATA PRE-PROCESSING:
    • TRAITER LES VALEURS AB...
    3. MODELE DE MACHINE LEARNING:
    • REGRESSION LINEAIRE - ...
    4. VIDEOS TUTORIELLE(PRISE EN MAIN DE JUPYTER NOTE BOOK):
    • Maitriser les raccourc...

ความคิดเห็น • 55

  • @openclass4all
    @openclass4all  2 ปีที่แล้ว +2

    *REJOINDRE LA COMMUNAUTÉ OPENCLASS4ALL:* 👉 th-cam.com/channels/E-613S-bsuLukwHDhnRxIA.html

  • @yezziyezza2291
    @yezziyezza2291 3 ปีที่แล้ว +4

    Merci de votre retour

  • @sirakhecisse5707
    @sirakhecisse5707 2 หลายเดือนก่อน +1

    Pour moi vous etes le meilleur youtubeur

    • @openclass4all
      @openclass4all  2 หลายเดือนก่อน

      Merci pour le compliment, n’hésitez pas à partager le lien de nos formations ( th-cam.com/users/c@openclass4all/playlists ) avec vos amis qui seraient intéressés (il y a environ 30 vidéos reparties en 3 formations distinctes).

  • @prenammalfa689
    @prenammalfa689 3 ปีที่แล้ว +4

    merci beaucoup c'est très intéressant

  • @mahamathassan7035
    @mahamathassan7035 3 ปีที่แล้ว +5

    Keep up!

  • @jamaltraore
    @jamaltraore 3 ปีที่แล้ว +4

    merci bcp de tes videos très édifiantes

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +5

      Merci à vous de l'avoir suivi et apprecié le contenu

    • @yezziyezza2291
      @yezziyezza2291 3 ปีที่แล้ว +3

      bonsoir avez vous le lien de la dataset utilisé merci d avance

  • @vosinh2180
    @vosinh2180 3 ปีที่แล้ว +5

    Merci beaucoup pour ces tutos très utiles.👍👍👍

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +5

      Trés héreux que c'est utile pour vous, merci pour votre commentaire

  • @openclass4all
    @openclass4all  3 ปีที่แล้ว +5

    *NOTEBOOK 👉 **github.com/ousmanhamit/*

  • @marcinclairdjontu1031
    @marcinclairdjontu1031 3 ปีที่แล้ว +5

    Merci bien pour cette vidéo très intéressante !

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +5

      Merci à vous de l'avoir suivi 👍

  • @engelberttchindewamba6436
    @engelberttchindewamba6436 3 ปีที่แล้ว +4

    Merci bien pour cette vidéo!

  • @vosinh2180
    @vosinh2180 3 ปีที่แล้ว +4

    Merci encore pour le partage du notebook, ça nous aide beaucoup.

  • @eljeroelia7607
    @eljeroelia7607 2 ปีที่แล้ว +3

    qu'Allah te preserve tonton, c'est super clair

    • @openclass4all
      @openclass4all  2 ปีที่แล้ว +3

      Amine et merci beaucoup

    • @openclass4all
      @openclass4all  2 ปีที่แล้ว +3

      Si vous etes interessés, j'ai une superbe playlist de plusieurs à cette URL 👉 th-cam.com/video/h-PzukPhUB0/w-d-xo.html

  • @yayacisse1332
    @yayacisse1332 3 ปีที่แล้ว +4

    Comment faire une imputation si la colonne est de type string ?

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +6

      Réponse dans ma prochaine du même playlist

    • @openclass4all
      @openclass4all  2 ปีที่แล้ว +2

      Bonjour, j'ai repondu à ta question dans cette video ainsi que bien d'autres questions tres interessantes => th-cam.com/video/KOniG5WWAZ8/w-d-xo.html

  • @aldrichcodelabs
    @aldrichcodelabs 3 ปีที่แล้ว +4

    Merciii beaucoup mais comment les supprimer !??

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +7

      Je vais vous montrer comment les supprimer dans une prochaine vidéo, si vous voulez avoir une réponse rapide à votre question, une des idées(car y en a beaucoup ) c'est de fixer un certain seuil et de copier toutes les valeurs qui se retrouvent en deça de celui-ci.

    • @openclass4all
      @openclass4all  2 ปีที่แล้ว

      Bonjour, j'ai repondu à ta question dans cette video ainsi que bien d'autres questions tres interessantes => th-cam.com/video/SJNw_kxcnpE/w-d-xo.html

  • @yezziyezza2291
    @yezziyezza2291 3 ปีที่แล้ว +4

    Bonjour le lien du dataset merci

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +5

      Le voici ---> github.com/OusmanHamit/Notebook

  • @akrambouchattah
    @akrambouchattah 3 ปีที่แล้ว +4

    merci beaucoup pour la vidéo , j'ai récupérer les outileres dans le cas ou on un seul variable x vous avez fait : outliers=find_all_outliers(data['xr'])
    o] , mais ma question comment récupérer les outliers dans le cas ou il ya deux colonnes x et y ??

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +6

      Bonne question, je vais repondre dans une des prochaines videos, en attendant vous pouvez les récuperer colonne par colonne

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +6

      Merci @akram pour cette question, j'avais vraiment pas cette idée au moment ou je tournais cette video sur les outliers

    • @akrambouchattah
      @akrambouchattah 3 ปีที่แล้ว +3

      @@openclass4all ok merci

    • @akrambouchattah
      @akrambouchattah 3 ปีที่แล้ว +2

      @@openclass4all merci beaucoup s' il ya une solution pouvez-vous me contacter sur mail en attendant le vidéo Merci : akramb1997@gmail.com

  • @yezziyezza2291
    @yezziyezza2291 3 ปีที่แล้ว +3

    et s il est possible de les inclure dans votre github

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +5

      Tout est déjà sur mon github, voici le lien: github.com/OusmanHamit/Notebook

  • @MH-ny3sd
    @MH-ny3sd 3 ปีที่แล้ว +4

    Bonsoir monsieur, comment puis-je vous contacter personnellement ? Je vous ai envoyé un message sur votre page Facebook. Merci par avance.

    • @openclass4all
      @openclass4all  3 ปีที่แล้ว +5

      openclass4all@gmail.com 👈 joignable à cette adresse

  • @Benzo_Gaming0
    @Benzo_Gaming0 ปีที่แล้ว +1

    bonne vedio mais esque si on les telecharge le fichier traiter les outlier sont traiter dans le fichier telecharger?

    • @openclass4all
      @openclass4all  ปีที่แล้ว

      Bonjour, je n'ai pas bien compris svp.

    • @openclass4all
      @openclass4all  ปีที่แล้ว

      Je voulais dire je n'ai pas bien compris votre question, merci de la reformuler et je suis à répondre à toutes les questions, merci, .....

    • @Benzo_Gaming0
      @Benzo_Gaming0 ปีที่แล้ว +1

      est que les outliers seront suprimer sur le fichier automatiquement

    • @openclass4all
      @openclass4all  ปีที่แล้ว

      @@Benzo_Gaming0 J'ai traité les outliers dans deux vidéos, j'ai déjà répondu à la question de suppression dans la deuxième partie, je vous envoie toute de suite l'URL de la vidéo

    • @openclass4all
      @openclass4all  ปีที่แล้ว

      @@Benzo_Gaming0 La suppression des outliers ici 👉👉👉 th-cam.com/video/SJNw_kxcnpE/w-d-xo.html