Татьяна рассказывает о своем образовании в МГУ, интересе к языкам и лингвистике, а также о своем опыте работы в области машинного обучения и искусственного интеллекта.
Татьяна упоминает известный афоризм о том, что качество системы возрастает после увольнения лингвиста, который объясняет, что статистический перевод стал более популярным из-за его обобщающей способности и простоты в использовании.
Татьяна объясняет, что НЛП является большим направлением, которое включает в себя смежные области, такие как нейронауки.
Она считает, что технологии, связанные с обработкой языка, могут стать ключевыми для построения сильного искусственного интеллекта, поскольку язык является ключом к человеческому мышлению и пониманию логики.
Татьяна рассказывает о развитии НЛП, начиная с исправления опечаток в компьютерных программах и заканчивая современными методами обработки естественного языка.
В 1960-х годах появились первые статистические модели для обработки текстов, а в 1990-х годах стали собирать национальные корпуса языков.
Модель мешка слов используется для подсчета абсолютных частот встречаемости слов в корпусе.
Ворту век - алгоритм снижения размерности, который предсказывает текущее слово, исходя из слов справа и слева, или предсказывает слова справа и слева, исходя из текущего слова.
Ворту век используется для классификации текстов, извлечения информации и разметки текста.
Использование ворту века в современных технологиях
Языковые модели не всегда могут определить, какие знания достоверны, и это требует дополнительных исследований и обучения.
В настоящее время, языковые модели проходят обучение по надежным источникам, таким как Википедия, но это не всегда достаточно для определения достоверности знаний.
Спикер подчеркивает, что практика играет ключевую роль в машинном обучении.
Он отмечает, что важно иметь сбалансированную практику, работая с крупными библиотеками, такими как трансформеры, чтобы понять их особенности и минусы.
Спикер также упоминает, что задачи машинного обучения можно разделить на три категории: секту-сек, скон с лейблинг и классификация.
Он подчеркивает, что важно получить практику по всем трем задачам, а также по специализированным областям, таким как распознавание речи и генерация.