ขนาดวิดีโอ: 1280 X 720853 X 480640 X 360
แสดงแผงควบคุมโปรแกรมเล่น
เล่นอัตโนมัติ
เล่นใหม่
感谢王老师! 网上找了很多transformer和bert入门的资料,没有一个比您的更易懂
一下就明白了cls token的意义了:他和rnn最后一个hidden输出作用差不多,只不过rnn里面,始终要通过各种架构(如lstm等)来解决最后一个hidden随着输出长度增加而丢失前面信息的问题,attention层输出的cls token,会携带所以输出是信息,完美解决rnn的问题。attention设计精美,王老师讲的棒!
说话风格很棒, 讲得也很好。
看了不下三遍,太喜欢王老师的风格了
讲述的确实是清晰,点赞
非常不错的讲解,深入浅出
今天又看了一遍小王老师的视频,确实是讲得好。RoBERTa通过实验把NSP给否了。其实也就差零点几个百分点,而且在不同的数据集上表现不一致,其实没什么意义。Bert这种自动生成标签的方式并不严谨。自然语言最难的是需要绝对正确,这么高capacity的模型还是生成不了稍微长一点的正确句子,说明现在走的方向可能有问题。
受教了!也就是说最好的预训练是只用masking,数据更多更长,再有一些小技巧,就可以达到state of the art了对吗?
@@ShusenWang 是的,RoBERTa建议只用masking,而且是动态masking: arxiv.org/pdf/1907.11692v1.pdf
Bert的方向因为chatGPT的火爆开始被人质疑了,还是生成下一个token最有价值。这个原理到底是什么,似乎也没人能说清楚。
厉害,很清楚,期待更多视频!
0:38 ppt里面参考文献 BERT应该是 发表在NAACL2019,不是ACL。
是的,我写错了,多谢哈
@@ShusenWang 感谢王老师开源这么棒的教程。实在是太棒了(我是您知乎多年粉丝 哈哈哈)
讲非常清楚明白!谢谢!
哥 讲的很清晰
wang shu sen 你好, 我是你的观众
讲的太好了,感恩!
有个地方不太明白,Bert预训练采用的是wordpiece方法,假如有些word被分拆成多个subwords,th-cam.com/video/UlC6AjQWao8/w-d-xo.html 这里embedding层输出的就是subword的embedding了吧,应该就不只是x1到x6了吧
讲的很清晰
字正腔圆 好好好
老师,这里遮住的数据是随机的,合成loss函数包含的loss个数也是随机的,写keras,tensorflow时候怎么连呢?难不成每个子loss还要乘上一个阀门,阀门值0/1在数据随机生成mask时候定?
王老师,请讲一下GPT和ChatGPT,可以吗?
网上已经很多了,我就不班门弄斧了🤣
bert的这两种构造样本的方式和传统的word2vec或seq2seq有和本质差别呢?(取前n-1个单词作为输入feature,第n个词作为label),仅仅是因为构造的样本数更多吗?
好问题!其实我也不确定。我觉得拿上下文作为训练数据,能更好提取语义。
w2v 中 每个单词对应一个 embedding, 但是 Bert 会考虑上下文 还有 position 打个比方 如果 apple 代表 水果 和 apple 代表 苹果公司 他们 出来的 embedding是不一样的 他们的 input token ID 一样的 经过 token embedding 也是 一样的 但是 出来的 output 就不一样了 因为 Bert 使用 position 和 self attention 进行 训练的。 bert output的 东西 除了 第一个 cls 就是上下文的 词向量只是 后面接了 linear layer 变成分类任务了。
他们本质上都是前后文信息,但是transformer结构更好结构整体信息所以效果看起来比另外的好很多
感谢王老师,我有个问题,为什么是靠cls起始位置对应的输出c向量来判断两句话是否相邻?是否可以通过其他什么位置的单词对应的输出向量来判断呢?
我觉得这个只是他们事先定义的,改成别的位置插入的 符号作为预测向量应该应该都一样
大道至简!
我相问一下SEP上面对应的输出S由什么意义?
没意义。如果是多层,必须要这个,把两个序列分开。
为了DL买了两个2080TI,然鹅玩不了BERT
Bert 计算量太大吗
买十个也跑不了
位置编码一句没提😂
感谢王老师! 网上找了很多transformer和bert入门的资料,没有一个比您的更易懂
一下就明白了cls token的意义了:他和rnn最后一个hidden输出作用差不多,只不过rnn里面,始终要通过各种架构(如lstm等)来解决最后一个hidden随着输出长度增加而丢失前面信息的问题,attention层输出的cls token,会携带
所以输出是信息,完美解决rnn的问题。attention设计精美,王老师讲的棒!
说话风格很棒, 讲得也很好。
看了不下三遍,太喜欢王老师的风格了
讲述的确实是清晰,点赞
非常不错的讲解,深入浅出
今天又看了一遍小王老师的视频,确实是讲得好。RoBERTa通过实验把NSP给否了。其实也就差零点几个百分点,而且在不同的数据集上表现不一致,其实没什么意义。Bert这种自动生成标签的方式并不严谨。自然语言最难的是需要绝对正确,这么高capacity的模型还是生成不了稍微长一点的正确句子,说明现在走的方向可能有问题。
受教了!也就是说最好的预训练是只用masking,数据更多更长,再有一些小技巧,就可以达到state of the art了对吗?
@@ShusenWang 是的,RoBERTa建议只用masking,而且是动态masking: arxiv.org/pdf/1907.11692v1.pdf
Bert的方向因为chatGPT的火爆开始被人质疑了,还是生成下一个token最有价值。这个原理到底是什么,似乎也没人能说清楚。
厉害,很清楚,期待更多视频!
0:38 ppt里面参考文献 BERT应该是 发表在NAACL2019,不是ACL。
是的,我写错了,多谢哈
@@ShusenWang 感谢王老师开源这么棒的教程。实在是太棒了(我是您知乎多年粉丝 哈哈哈)
讲非常清楚明白!谢谢!
哥 讲的很清晰
wang shu sen 你好, 我是你的观众
讲的太好了,感恩!
有个地方不太明白,Bert预训练采用的是wordpiece方法,假如有些word被分拆成多个subwords,th-cam.com/video/UlC6AjQWao8/w-d-xo.html 这里embedding层输出的就是subword的embedding了吧,应该就不只是x1到x6了吧
讲的很清晰
字正腔圆 好好好
老师,这里遮住的数据是随机的,合成loss函数包含的loss个数也是随机的,写keras,tensorflow时候怎么连呢?难不成每个子loss还要乘上一个阀门,阀门值0/1在数据随机生成mask时候定?
王老师,请讲一下GPT和ChatGPT,可以吗?
网上已经很多了,我就不班门弄斧了🤣
bert的这两种构造样本的方式和传统的word2vec或seq2seq有和本质差别呢?(取前n-1个单词作为输入feature,第n个词作为label),仅仅是因为构造的样本数更多吗?
好问题!其实我也不确定。我觉得拿上下文作为训练数据,能更好提取语义。
w2v 中 每个单词对应一个 embedding, 但是 Bert 会考虑上下文 还有 position 打个比方 如果 apple 代表 水果 和 apple 代表 苹果公司 他们 出来的 embedding是不一样的 他们的 input token ID 一样的 经过 token embedding 也是 一样的 但是 出来的 output 就不一样了 因为 Bert 使用 position 和 self attention 进行 训练的。 bert output的 东西 除了 第一个 cls 就是上下文的 词向量只是 后面接了 linear layer 变成分类任务了。
他们本质上都是前后文信息,但是transformer结构更好结构整体信息所以效果看起来比另外的好很多
感谢王老师,我有个问题,为什么是靠cls起始位置对应的输出c向量来判断两句话是否相邻?是否可以通过其他什么位置的单词对应的输出向量来判断呢?
我觉得这个只是他们事先定义的,改成别的位置插入的 符号作为预测向量应该应该都一样
大道至简!
我相问一下SEP上面对应的输出S由什么意义?
没意义。如果是多层,必须要这个,把两个序列分开。
为了DL买了两个2080TI,然鹅玩不了BERT
Bert 计算量太大吗
买十个也跑不了
位置编码一句没提😂