1:04 categorical feature should be represented by a numeric value ( count from 1 instead of 0) then apply one-hot encoding ( again, count from "1") 2:44 why "count from 1" : because 0 is representing missing/unknown value. 4:09 why NOT scalar repressenting category features : no additive is applied 8:48 processing text : step 1/2 count word frequencies to create a word - word frequency map. One of the map purpose: a. remove infrequent words ( usually meaningless) b. higher-dim one-hot vectors ( to avoid overfitting ) step 3 one-hot encoding towards the freqeuncy map ( that had removed the infrequent words)
王教授是目前中文频道做机器学习最说“人话的”博主,从不可以凹名词。非常清晰的逻辑
太感谢了Wang教授! 说的清晰没有多余半句废话,精简易懂。很棒!
1:04 categorical feature should be represented by a numeric value ( count from 1 instead of 0) then apply one-hot encoding ( again, count from "1")
2:44 why "count from 1" : because 0 is representing missing/unknown value.
4:09 why NOT scalar repressenting category features : no additive is applied
8:48 processing text :
step 1/2 count word frequencies to create a word - word frequency map. One of the map purpose:
a. remove infrequent words ( usually meaningless)
b. higher-dim one-hot vectors ( to avoid overfitting )
step 3 one-hot encoding towards the freqeuncy map ( that had removed the infrequent words)
字正腔圆,思路清晰,关注了
非常非常非常非常感谢!!!
感谢王教授,从B站过来点赞
王老师讲的真好,王老师有时间讲下图神经网络吗
感谢 Dr Wang ,对我帮助太大了
非常赞!!!感谢!!!
王老师讲的也太清楚了,你这不当老师也是学生的损失
给王老师点赞!
来了,讲得真好
重新回来再看一遍。 关于处理没见过的词的问题 是不是用fasttext好一些?谢谢
王老师能加点Xgboost 的讲解吗?
谢谢老师!
map[word]++ 那儿感觉有点过于细致了。
请问有代码吗
老师,请问您的机器学习的课程有吗,类似讲SVM之类的?
請問老師有公眾號或網站嗎
不是所有的低频词都是没用的,高频词太多向量数据特征反而不那么明显了
👍
用0表示女性,用1表示男性
你不对劲
太棒了
大佬声音好听耶
去低频词用什么框架好啊
低频词主要是typo和name entity。可以去掉,但去掉不是最好的办法。nltk等nlp库都可以做typo correction。
Huffman coding in information theory...
博主你好,能不能给出这些课件的相关代码,想自己跑一遍,谢谢!
大部分代码都在这本书里: Deep Learning with Python-Manning by François Chollet
@@ShusenWang 好的,感谢
性别是不是也要用one-hot编码? 不然male和female之间也有大小关系
Lifeng W 只用一个数字表示性别就够了。0是女性,1是男性,0.5不男不女(春哥)。不会出现 美国+中国=印度 这样不合理的情况。
因为性别是一个二元特征,只有两个可能的取值,比如"男"和"女"。出现既是男人又是女人本身是不合理的,同时对于二元特征,使用单个数字编码比独热编码节省了一半的存储空间
听不懂教授讲的,来听听看王老师的