How to Detect and Remove Outliers in the Data | Python

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 ส.ค. 2024

ความคิดเห็น • 56

  • @asadnaeem123
    @asadnaeem123 หลายเดือนก่อน +3

    Amazing tutorial. Bro, you made my day. Lots of love from Pakistan.

    • @HackersRealm
      @HackersRealm  หลายเดือนก่อน

      Glad to hear that!!!

    • @user-kv5ud8jm8h
      @user-kv5ud8jm8h 21 วันที่ผ่านมา +1

      You are from Pakistan !! Amazing !😀

  • @pankajgoikar4158
    @pankajgoikar4158 ปีที่แล้ว +10

    You are amazing bro. Don't have words to thank you. you have cleared my many concepts. Lots of love from UK and god bless you. 😊

    • @HackersRealm
      @HackersRealm  ปีที่แล้ว +2

      Thank you so much for your kind words ❤️

  • @DJnaidu22
    @DJnaidu22 4 หลายเดือนก่อน +2

    Bruh I have a doubt..... please explain briefly..... These three techniques are used for trimming or capping outliers in the dataset...... But why don't we use only z-score to find outliers. Then what's the diff between these three techniques??

  • @ArniFuentes
    @ArniFuentes หลายเดือนก่อน +1

    Thank you so much!!!. A question: in what type of distributions can the box plot be used? For example, if the data follows a uniform distribution, does it make sense to find outliers? What do you recommend me?

    • @HackersRealm
      @HackersRealm  หลายเดือนก่อน +1

      You can use box plot and check if there are any outlier for any distribution. If there is some outliers, do the processing, if not ignore it.

    • @ArniFuentes
      @ArniFuentes หลายเดือนก่อน +1

      @@HackersRealm thanks for your answer

  • @insight_generator
    @insight_generator 6 หลายเดือนก่อน +1

    This video helped me a lot. Thanks!

    • @HackersRealm
      @HackersRealm  6 หลายเดือนก่อน

      Glad it was helpful!!!

  • @negusuworku2375
    @negusuworku2375 6 หลายเดือนก่อน +1

    This is very helpful. Excellent.

    • @HackersRealm
      @HackersRealm  6 หลายเดือนก่อน

      Glad you liked it!!!

  • @grandson_f_phixis9480
    @grandson_f_phixis9480 3 หลายเดือนก่อน +1

    Thank you very much sir!!

  • @ocraking
    @ocraking 2 หลายเดือนก่อน +1

    what an amazing video

  • @debangshubarua5345
    @debangshubarua5345 ปีที่แล้ว +2

    Good vedio... Do i need check for all the numeric columns one by one and perform capping operation??????

    • @HackersRealm
      @HackersRealm  ปีที่แล้ว +1

      You can use a loop to do it for all numeric columns at once...

  • @DJnaidu22
    @DJnaidu22 4 หลายเดือนก่อน +1

    really a great explanation

    • @HackersRealm
      @HackersRealm  4 หลายเดือนก่อน +1

      Glad you liked it!!!

  • @vietttt0104
    @vietttt0104 ปีที่แล้ว +1

    Greate Tutorial!! Thanks a lot!! I have a question that How could I do it with the whole dataset? not a single one

    • @HackersRealm
      @HackersRealm  ปีที่แล้ว

      you can iterate the columns and process the whole data

    • @aniketlode4808
      @aniketlode4808 ปีที่แล้ว

      @@HackersRealm So to iterate it we will be using for loop passing each column name as I??

    • @HackersRealm
      @HackersRealm  ปีที่แล้ว

      @@aniketlode4808 yeah

  • @titi-cu8dx
    @titi-cu8dx 7 หลายเดือนก่อน +1

    What about dealing with categorical columns in the context of outliers?

    • @HackersRealm
      @HackersRealm  7 หลายเดือนก่อน

      I don't think there will be outliers in categories

  • @mohamads9759
    @mohamads9759 4 หลายเดือนก่อน +1

    Very Great.

    • @HackersRealm
      @HackersRealm  4 หลายเดือนก่อน

      Glad you liked it!!!

  • @user-lq3zd9jx1u
    @user-lq3zd9jx1u 9 วันที่ผ่านมา

    can somebody please explain from where we get 1.5 in the IQR method? why exactly 1.5?

  • @massoudkadivar8758
    @massoudkadivar8758 7 หลายเดือนก่อน

    Thank you so much,
    I have a question, do we need to do this process for each column one by one?

    • @HackersRealm
      @HackersRealm  7 หลายเดือนก่อน

      yes, that's correct, you can use loops to automate this.

  • @adityachoudhari3596
    @adityachoudhari3596 2 ปีที่แล้ว +2

    Yo bro I m also learning ai and ml concepts I just need to work one some project or get the training in this
    Plz tell me if you can help

    • @HackersRealm
      @HackersRealm  2 ปีที่แล้ว +1

      check the iris dataset analysis project in the playlist for start

  • @sushmitarawat6438
    @sushmitarawat6438 ปีที่แล้ว

    Too good....and simple thanks a lot☺️🙏🏼

    • @HackersRealm
      @HackersRealm  ปีที่แล้ว +1

      Glad you like it sushmita!!!

    • @sushmitarawat6438
      @sushmitarawat6438 ปีที่แล้ว

      @@HackersRealm could you suggest some paid internship which I can start off with the very next month

    • @HackersRealm
      @HackersRealm  ปีที่แล้ว +1

      @@sushmitarawat6438 For ML based internship, it's better to compete in hackathons or contest to get internship.. You could checkout hackerearth, techgig, etc., for that

    • @sushmitarawat6438
      @sushmitarawat6438 ปีที่แล้ว

      @@HackersRealm ok

  • @gud_vibesm
    @gud_vibesm หลายเดือนก่อน

  • @santoryuu989
    @santoryuu989 2 ปีที่แล้ว

    what do you think is the best method out of these three ?

    • @HackersRealm
      @HackersRealm  2 ปีที่แล้ว

      You can use any method as it's producing similar results, but instead of deleting samples, trim it in the range

  • @ricesweat9951
    @ricesweat9951 9 หลายเดือนก่อน

    why you decided to use residual sugar as a column to find outliers? any tips and tricks on which columns should be used to find outliers within the dataset?

    • @HackersRealm
      @HackersRealm  9 หลายเดือนก่อน +1

      we can use boxplot or violinplot to find the outliers. You can see some dots outside the line which can be considered as outliers.

  • @karthika8610
    @karthika8610 ปีที่แล้ว

    Which method is the most preferred?

    • @HackersRealm
      @HackersRealm  ปีที่แล้ว +2

      It's not about preference, it depends on where and which use case you're trying to solve

    • @madhulikasuman2803
      @madhulikasuman2803 4 หลายเดือนก่อน +1

      @@HackersRealm if there are 40% outlier then ?

    • @HackersRealm
      @HackersRealm  4 หลายเดือนก่อน

      @@madhulikasuman2803 it depends on the nature of data, need to understand the domain, and see why this is the case. We could do some data transformation like log transformation to change it

  • @Serene__Soul98
    @Serene__Soul98 2 ปีที่แล้ว

    Hii..my dataset has 19 columns and at least 10 colums shows outliers..
    So do I have to perform this process for every column each time?

    • @HackersRealm
      @HackersRealm  2 ปีที่แล้ว

      Yes it's better to do the process in a loop and fix it for better results

    • @avashchand9623
      @avashchand9623 2 ปีที่แล้ว

      @@HackersRealm Can you kindly show this process too. Searching for it everywhere can't find it.

    • @HackersRealm
      @HackersRealm  2 ปีที่แล้ว

      @@avashchand9623 what process you're referring?

    • @aniketlode4808
      @aniketlode4808 ปีที่แล้ว

      @@HackersRealm I think he is asking for the process of looping the columns

    • @nihalkausar2215
      @nihalkausar2215 4 หลายเดือนก่อน

      Pls after I have handled each column outlets how do I save it and which data frame should I continue using

  • @Niyati_11
    @Niyati_11 8 หลายเดือนก่อน +1

    My df is empty while finding the outliers. Any idea why it is so?

    • @HackersRealm
      @HackersRealm  8 หลายเดือนก่อน

      which cell you faced the issue?

  • @nihsacinan19
    @nihsacinan19 11 หลายเดือนก่อน

    8:35 outliers=26