Векторизация текстов для практических задач // Курс «Natural Language Processing (NLP)»

แชร์
ฝัง
  • เผยแพร่เมื่อ 22 ต.ค. 2024

ความคิดเห็น • 7

  • @netarrrr
    @netarrrr 8 หลายเดือนก่อน +1

    Огромное спасибо за лекцию🚀

  • @VsevolodT
    @VsevolodT 10 หลายเดือนก่อน

    Крутая лекция для погружения в тему! Спасибо

  • @user-xj4hf4od3i
    @user-xj4hf4od3i 10 หลายเดือนก่อน

    Потрясающе! Огромное спасибо автору!

  • @marwolaeth111
    @marwolaeth111 10 หลายเดือนก่อน

    Спасибо, очень интересно!
    Я думал, что n-граммы - это n слов, из которых так же можно состалвять «мешок слов», рассчитывать Tf-Idf и т. д. А еще skip n-grams, когда n-граммы состалвяются не только из слов, идущих по порядку, но и имеющих между собой от 1 до k других слов. С такими токенами я раньше выделял сюжеты (инфоповоды) в корпусе новостных публикаций (RNewsflow + та самая (4:52) кластеризация графов). Для полнотекстовых новостей работало хорошо, для ретрансляций заголовков в соцсетях - неплохо, для обсуждений в блогах (вроде Telegram- и TH-cam-каналов - не очень). Главная проблема - последний пункт списка на слайде (23:52): настоящее проклятие анализа медиатекстов))
    FastText, Word2Vec и BERT никогда не делал, поэтому за это всё отдельное спасибо.

  • @user-xj4hf4od3i
    @user-xj4hf4od3i 10 หลายเดือนก่อน +1

    Поддерживаю вопрос о файле блокнота. стоит ожидать?

  • @alexeykazmin7539
    @alexeykazmin7539 10 หลายเดือนก่อน +1

    Супер! Ссылка на блокнот colab будет?

  • @sndrstpnv8419
    @sndrstpnv8419 6 หลายเดือนก่อน

    pls share code