Иван Бондаренко | Маленькая, но удаленькая! Зачем использовать LLM размером меньше 1B параметров?
ฝัง
- เผยแพร่เมื่อ 10 ต.ค. 2024
- Спикер: Иван Бондаренко, старший преподаватель, научный сотрудник НГУ
Data Fest 2024: ods.ai/events/...
Презентацию к докладу Вы можете скачать в треке секции NLP: ods.ai/tracks/...
______
Наши соц.сети:
Telegram: t.me/datafest
Вконтакте: datafest
Канал с вакансиями в telegram: t.me/odsjobs
Канал с апдейтами по курсам: t.me/odscourses
Как попасть в чат сообщества ODS Mattermost: ods.ai/tracks/...
Доклад огонь. Очень полезно. Все, о чем рассказывал Иван используем в своей работе.
Работаю в этой области в США - лекция годная, даже что-то смог для себя нового подчерпнуть.
22:57 Каузальное маскирование репрезентирует некст токен предикшен декодер онли и аттендит аннессесуально лимитированный префикс.
😊
Разрабатываю программу чтения книг вслух (создание аудиокниг из обычных книг). Столкнулся с одной НИКЕМ не решенной проблемой - УДАРЕНИЯ (омографы). НИКТО так и не сделал простую, казалось бы, систему, которая из русского текста делает текст с проставленными правильно ударениями!! Ну, т. е. не путает зАмок - замОк , стрЕлки - стрелкИ, нОги -ногИ, Всe - Всё и так далее. ИИ оказался бессилен перед человеком (который такие ляпы слышит чётко). Даже у Яндекса его голосовые движки путают ударения. ПОЧЕМУ?
Самый масштабный ИИ проект на эту тему на гитхабе - ruaccent - но у него так себе успехи, особенно плохо с буквой Ё.
OpenAI Advanced Voice пропускает лишнее и сразу генерирует речь. Ударения расставляет правильно, дышит, эмоции выдает, может кричать или говорить шепотом.
Большие модели обучают малые
Лектор сам как языковая модель
Спикер не уверен, к сожалению или же к счастью нет рабства. Чёт сомнительный уровень доклада.
Может он конфедерат или потомок русского помещика🤔
"К сожалению" 😂 возможно имеется ввиду на сравнениях, рабство тогда это не только кнут и палящее солнце но ещё и бесплатное жилье (не всегда сарай) бесплатная медицинская страховка. Сейчас в современном рабстве (найме) это мега роскошь, поэтому найм зачастую дешевле чем рабство... Или вы ,наивные ,думаете рабство отменили потому что это не хуманно🤣
@@brkbrkvjkты и сейчас можешь за бесплатно жить в ночлежке. Вот только боюсь условия не понравятся
Интересная лекция
15:00 "Саммаризация" (от англ. "summary" суммирование, подитоживание, вывод или реферат)
Очень плохо когда англицизмы используют без добавки английского слова референса. Лектор знает этимологию, а аудитория должна зазубрить и понять?!
Нельзя так относиться к родному и иностранным языкам.
Многие даде английские термины в программировании сложно понять без знания их латинских корней.
Например "Комми́т", "прикоммитить" - от англ. "Comit" - в свою очередь от латинского "Comittere":
Означавшее присоединиться к делу совместно выполняемому другими людьми, соединить свои труды с их трудами, либо передать/принять их по наследию.
Так, присоединение воина к сражающемуся войску - описывалось как "Comittere".
Сейчас, во многих учебниках не толкуют слово "комит", как будто оно сразу таким создавалось (ага, щас, невежды).
Пишут в лучшем случае что комит это:
Действие по загрузке изменений в ветку на репозиторий, с негласным принятием ответственности.
Или ещё хуже, что коммит это "список изменений". Что вообще теряет связь с этимологией.
Коммит это именно - действие, в которое включается передача выполненных изменений на репозиторий, в форме удобной для СОВМЕСТНОЙ работы. Тоесть присоединение своих трудов к общим. Если это командный проект разумеется.
И даже если работа идёт в одного, в случае необходимости, человек унаследовавший проект будет видеть списки всех изменений, и каждый комит (каждое присоединение).
Без этимологии очень тяжело учить терминологию и языки.
Пожалуйста понимайте это.
Когда дети учат языки, они воспринимают их образно - от носителя. Через картинки, предметы, действия, эмоции и т.д. Словами такое не передать.
Не нужно считать что тупо зазубривание англицизмов помогает в изучении чего угодно.
Кроме англицизмов есть и германизмы, и многие другие заимствования, которые требуют для понимания отсылки к этимологии.
Если конечно у человека нет очень хорошего интуитивного понимания языка, и он легко читает эти рунглишы на кирилице между строк.
Это дурной тон.
Далее вообще понеслось, про детоксикацию... Это называется цензура. Это оставьте людям пожалуйста - пусть цензор несёт ответственность за свои действия - не перекладывайте это на машину.
Детект - хорошо, решение - за оператором/цензором!
Машины ещё не освоили в идеале язык Эзопа, сарказм и иронию.
Графоман, зачем ты все это пишешь
@@TheSemenFarada конструктивная критика потому что
Вокруг вся жизнь исчезла от душности
@@DarkSlear Никакой душности тут нет, человеку показали, что его штаны обосраны, И что в обществе ходить с обосранными штанами - это моветон, В результате чего он может Про..ать Реноме и потерпеть фиаско. Я Полагаю всем будет лучше, если Господа будут меньше испражняться. . Извините если ранил вашу хрупкую натуру.Но тоже не смог пойти мимо
22:57 Каузальное маскирование репрезентирует некст токен предикшен декодер онли и аттендит аннессесуально лимитированный префикс.