Спасибо, очень интересно! Я думал, что n-граммы - это n слов, из которых так же можно состалвять «мешок слов», рассчитывать Tf-Idf и т. д. А еще skip n-grams, когда n-граммы состалвяются не только из слов, идущих по порядку, но и имеющих между собой от 1 до k других слов. С такими токенами я раньше выделял сюжеты (инфоповоды) в корпусе новостных публикаций (RNewsflow + та самая (4:52) кластеризация графов). Для полнотекстовых новостей работало хорошо, для ретрансляций заголовков в соцсетях - неплохо, для обсуждений в блогах (вроде Telegram- и TH-cam-каналов - не очень). Главная проблема - последний пункт списка на слайде (23:52): настоящее проклятие анализа медиатекстов)) FastText, Word2Vec и BERT никогда не делал, поэтому за это всё отдельное спасибо.
Огромное спасибо за лекцию🚀
Крутая лекция для погружения в тему! Спасибо
Потрясающе! Огромное спасибо автору!
Спасибо, очень интересно!
Я думал, что n-граммы - это n слов, из которых так же можно состалвять «мешок слов», рассчитывать Tf-Idf и т. д. А еще skip n-grams, когда n-граммы состалвяются не только из слов, идущих по порядку, но и имеющих между собой от 1 до k других слов. С такими токенами я раньше выделял сюжеты (инфоповоды) в корпусе новостных публикаций (RNewsflow + та самая (4:52) кластеризация графов). Для полнотекстовых новостей работало хорошо, для ретрансляций заголовков в соцсетях - неплохо, для обсуждений в блогах (вроде Telegram- и TH-cam-каналов - не очень). Главная проблема - последний пункт списка на слайде (23:52): настоящее проклятие анализа медиатекстов))
FastText, Word2Vec и BERT никогда не делал, поэтому за это всё отдельное спасибо.
Поддерживаю вопрос о файле блокнота. стоит ожидать?
Супер! Ссылка на блокнот colab будет?
pls share code