RNN模型与NLP应用(1/9):数据处理基础

แชร์
ฝัง
  • เผยแพร่เมื่อ 1 ม.ค. 2025

ความคิดเห็น • 35

  • @浮生六记-w4j
    @浮生六记-w4j 2 หลายเดือนก่อน

    王教授是目前中文频道做机器学习最说“人话的”博主,从不可以凹名词。非常清晰的逻辑

  • @mooncake_offer
    @mooncake_offer 4 ปีที่แล้ว +8

    太感谢了Wang教授! 说的清晰没有多余半句废话,精简易懂。很棒!

  • @jacquepang
    @jacquepang ปีที่แล้ว +1

    1:04 categorical feature should be represented by a numeric value ( count from 1 instead of 0) then apply one-hot encoding ( again, count from "1")
    2:44 why "count from 1" : because 0 is representing missing/unknown value.
    4:09 why NOT scalar repressenting category features : no additive is applied
    8:48 processing text :
    step 1/2 count word frequencies to create a word - word frequency map. One of the map purpose:
    a. remove infrequent words ( usually meaningless)
    b. higher-dim one-hot vectors ( to avoid overfitting )
    step 3 one-hot encoding towards the freqeuncy map ( that had removed the infrequent words)

  • @harborzeng2037
    @harborzeng2037 4 ปีที่แล้ว +1

    字正腔圆,思路清晰,关注了

  • @sddsvnxingyu1506
    @sddsvnxingyu1506 3 ปีที่แล้ว +1

    非常非常非常非常感谢!!!

  • @xdxn2010
    @xdxn2010 4 ปีที่แล้ว

    感谢王教授,从B站过来点赞

  • @jianweicen819
    @jianweicen819 3 ปีที่แล้ว +2

    王老师讲的真好,王老师有时间讲下图神经网络吗

  • @封筱
    @封筱 3 ปีที่แล้ว

    感谢 Dr Wang ,对我帮助太大了

  • @tomleo6390
    @tomleo6390 4 ปีที่แล้ว +2

    非常赞!!!感谢!!!

  • @amyzhang8155
    @amyzhang8155 2 ปีที่แล้ว

    王老师讲的也太清楚了,你这不当老师也是学生的损失

  • @frankhongliangchi8777
    @frankhongliangchi8777 4 ปีที่แล้ว

    给王老师点赞!

  • @amyzhang8155
    @amyzhang8155 2 ปีที่แล้ว

    来了,讲得真好

  • @DED_Search
    @DED_Search 3 ปีที่แล้ว +1

    重新回来再看一遍。 关于处理没见过的词的问题 是不是用fasttext好一些?谢谢

  • @guoqiongsong
    @guoqiongsong 3 ปีที่แล้ว

    王老师能加点Xgboost 的讲解吗?

  • @xiangwang4462
    @xiangwang4462 4 ปีที่แล้ว

    谢谢老师!

  • @solokyo_
    @solokyo_ 2 ปีที่แล้ว

    map[word]++ 那儿感觉有点过于细致了。

  • @linglingfan8138
    @linglingfan8138 3 ปีที่แล้ว

    请问有代码吗

  • @hiuwang1565
    @hiuwang1565 3 ปีที่แล้ว +3

    老师,请问您的机器学习的课程有吗,类似讲SVM之类的?

  • @ximoyan
    @ximoyan 4 ปีที่แล้ว

    請問老師有公眾號或網站嗎

  • @Lookman-z9l
    @Lookman-z9l 4 ปีที่แล้ว

    不是所有的低频词都是没用的,高频词太多向量数据特征反而不那么明显了

  • @frankrobert9199
    @frankrobert9199 2 ปีที่แล้ว

    👍

  • @ruotianzhang3139
    @ruotianzhang3139 4 ปีที่แล้ว +4

    用0表示女性,用1表示男性

  • @wangrichard2140
    @wangrichard2140 4 ปีที่แล้ว

    太棒了

  • @sanmansong9235
    @sanmansong9235 3 ปีที่แล้ว

    大佬声音好听耶

  • @guang790
    @guang790 4 ปีที่แล้ว

    去低频词用什么框架好啊

    • @ShusenWang
      @ShusenWang  4 ปีที่แล้ว

      低频词主要是typo和name entity。可以去掉,但去掉不是最好的办法。nltk等nlp库都可以做typo correction。

  • @whaleshark8700
    @whaleshark8700 2 ปีที่แล้ว

    Huffman coding in information theory...

  • @hvb1555
    @hvb1555 4 ปีที่แล้ว

    博主你好,能不能给出这些课件的相关代码,想自己跑一遍,谢谢!

    • @ShusenWang
      @ShusenWang  4 ปีที่แล้ว

      大部分代码都在这本书里: Deep Learning with Python-Manning by François Chollet

    • @hvb1555
      @hvb1555 4 ปีที่แล้ว

      @@ShusenWang 好的,感谢

  • @maxxxwan
    @maxxxwan 4 ปีที่แล้ว

    性别是不是也要用one-hot编码? 不然male和female之间也有大小关系

    • @ShusenWang
      @ShusenWang  4 ปีที่แล้ว +2

      Lifeng W 只用一个数字表示性别就够了。0是女性,1是男性,0.5不男不女(春哥)。不会出现 美国+中国=印度 这样不合理的情况。

    • @miao-lee
      @miao-lee 9 หลายเดือนก่อน

      因为性别是一个二元特征,只有两个可能的取值,比如"男"和"女"。出现既是男人又是女人本身是不合理的,同时对于二元特征,使用单个数字编码比独热编码节省了一半的存储空间

  • @XiaoyanHONG-w3z
    @XiaoyanHONG-w3z ปีที่แล้ว

    听不懂教授讲的,来听听看王老师的