Александр Пиперски: "Лингвистические итоги 2023 года"

YOUTUBE · 01.12.2025 08:00

Ключевые темы и таймкоды

Итоги лингвистического года

0:14
  • Лектор обсуждает достижения теоретической лингвистики, прикладной лингвистики, персоналии великих лингвистов и слова года.
  • Он подчеркивает, что сложно судить о том, что войдет в историю лингвистики, так как многое зависит от медийных событий.

Дешифровка кушанского письма

5:37
  • В прошлом году была дешифрована система письма кушанского царства, которая была распространена во втором веке до нашей эры - третьем веке нашей эры.
  • Ученые из Германии и Таджикистана смогли частично расшифровать письмо, которое было написано на индоевропейских языках.
  • Важным шагом в дешифровке является предположение о языке, на котором написан текст, и наличие параллельных текстов на известном и неизвестном языках.
  • Надпись с щелиал моси стала ключевым свидетелем для дешифровки кушанского письма.
  • Ученые составили таблицу символов письма, которая помогла определить, что это буквенное или конценантное письмо.

Дешифровка кушанского письма

13:17
  • В надписи на кушанском языке упоминается царь царей Шауна.
  • Дешифровка надписи позволила определить, что царь царей Шауна был записан на бактрийском языке.
  • В кушанском тексте, прочитанном справа налево, можно увидеть символы с диакритиками, которые позволяют определить, что это иранский язык.

Искусственные нейронные сети и большие языковые модели

21:32
  • В этом году стало сложнее проводить исследования в области теоретической лингвистики из-за распространения искусственных нейронных сетей и больших языковых моделей.
  • Грейвил Корбетт предложил типологию связей между словами в составе предложения, которая может быть полезна для изучения языкового разнообразия мира.

Типология внешних расщеплений

26:15
  • В статье Корбта вводится термин "антиуправление", который описывает ситуацию, когда признак главного слова определяет выбор зависимого слова.
  • В древнегреческом языке есть два типа отрицания: "у" и "м", и выбор отрицательного слова зависит от наклонения глагола.

Расщепленное управление

31:07
  • В русском языке глаголы, выражающие стимул, могут управлять творительным или винительным падежом.
  • В грузинском языке субъекты и объекты в разных временных формах оформляются по-разному.

Расщепленное управление по зависимому слову

33:15
  • В турецком языке местоимения принимают родительный падеж, а существительные остаются в начальной форме.
  • В белорусском языке предлог "по" управляет предложенным падежом в конструкциях типа "соревнования по футболу".

Проект граф банк

35:19
  • В этом году вышел проект "Граф банк", который представляет собой стандартизованную базу с типологической информацией о свойствах языков.
  • В проекте собрано 2467 языков и 195 признаков, на которые получено 362 тысячи ответов.

Счет по частям тела

37:42
  • В некоторых языках есть счет по частям тела, например, в языке бомбон.
  • В русском языке такого счета нет.

Всемирные атласы языков

40:17
  • Всемирные атласы языков, такие как Грабак, позволяют проводить типологические исследования на большой выборке языков мира.
  • Грабак имеет более полную информацию о языках, чем Всемирный атлас языковых структур Уоллс Дот Инфо.

Социолингвистическая типология

44:05
  • Статья "Комплекс сообщество незнакомцев, сообщество чужаков не говорят на более простых языках" спорит с идеей о том, что языки межнационального общения более простые.
  • Исследование на материале Грабака показало, что сложность языка лучше предсказывается географически и генетически, чем социолингвистическими параметрами.

Сложность языков

50:42
  • В исследовании, опубликованном в 2020 году, авторы проанализировали сложность уральских языков, используя данные из грабака.
  • Они обнаружили, что сложность языков не коррелирует с их размером, и что генеалогия и распространение языков объясняют большую часть вариативности.

Большие языковые модели

55:02
  • В 2021 году лингвистика оказалась под вопросом из-за появления больших языковых моделей, таких как ChatGPT.
  • Возникают вопросы о том, как эти модели могут повлиять на лингвистическую теорию и исследования.
  • Некоторые лингвисты предлагают использовать большие языковые модели как инструмент для исследований, в то время как другие ставят под сомнение их научную ценность.

Жанровая разметка

59:18
  • В компьютерной лингвистике сложно определить и формализовать жанры, так как они могут быть разными и иметь множество признаков.
  • Жанровая разметка влияет на результаты исследований на больших массивах текстов.
  • Автоматическая разметка без ручной аннотации может быть выполнена с помощью больших языковых моделей, таких как ChatGPT.

Применение ChatGPT в корпусе лингвистики

1:06:42
  • ChatGPT может анализировать корпусные данные и выдавать ответы на вопросы о сочетаемости слов.
  • Большие языковые модели могут справляться с анализом тональности, но испытывают трудности с энциклопедическими знаниями.

Языковые модели и их взаимодействие с теорией языка

1:10:49
  • Языковые модели могут оценивать свой уровень компетентности и понимать, с какой вероятностью они выдают галлюцинации.
  • Проект Сел в Чак G Пяти реализует идею поиска галлюцинаций в больших знаковых моделях без специальных обучающих выборок.
  • Искусственные нейронные сети могут порождать ответы на один и тот же вопрос несколько раз, что позволяет выявлять галлюцинации.

Генеративная грамматика и искусственные нейронные сети

1:15:00
  • Генеративная грамматика делает много сильных предположений о природе языка, которые искусственные нейронные сети не нуждаются.
  • Искусственные нейронные сети прекрасно справляются с генерацией предложений без использования деревьев и других структур.
  • Стивен Пинтадосе утверждает, что современные языковые модели опровергают подход Хопского к языку.
  • В искусственных нейронных сетях важную роль играют частотность, вероятность и избыточность языка, что не важно для генеративной грамматики.

Лингвисты и их вклад

1:23:08
  • Упоминаются лингвисты Виталий Викторович Ивашкин и Владимир Александрович Дебо, которые внесли вклад в дешифровку малых анталийских языков, фонетическую типологию и славянскую и балтийскую цитологию.
  • Ивашкин известен своими трудами в области дешифровки корейского языка, а Дебо сформулировал систему ударения для праславянского и балто-славянского языков.

Слова года

1:31:01
  • В английском языке словом года стал "галлюцинировать", в немецком - "кризисный способ существования", в русском - "искусственный интеллект" и "нейросеть".
  • В русском языке также обсуждались слова "имба" и "то", но они не были выбраны в качестве слова года.

Обсуждение лингвистических терминов

1:37:19
  • Обсуждение слова "имба", которое является интересным примером нерасчлененности частей речи в русском языке.
  • Упоминание слова "пон", которое может быть как существительным, так и глаголом.
  • Упоминание глагола "го" в баскетболе.

Рекомендации для чтения и прослушивания

1:40:35
  • Рекомендация книги Светланы Гурьяновой "В начале было кофе".
  • Рекомендация книги Андрея Железняка "Заметки любительской лингвистики".
  • Рекомендация подкаста Игоря Исаева и Дмитрия Коломацкого "Глагольная группа".

Вопросы и ответы

1:44:07
  • Ответ на вопрос о том, как разрабатывались лингвистические термины без участия лингвистов.
  • Ответ на вопрос о том, насколько генеративная лингвистика работает в сфере лингвистических терминов.
  • Ответ на вопрос о том, чем занимается автор в настоящее время.

Алармистские воззрения лингвистов

1:52:09
  • Лингвисты видят, что нейросети моделируют язык, но не испытывают сильного алармизма в отношении их развития.
  • Лингвисты понимают, как обучаются нейросети, проблемы с репрезентативностью обучающих выборок и вопросы о том, как наполнять лингвистические корпуса.

Вопросы нейросетевой этики

1:54:07
  • Вопросы об авторстве текста, порождаемого нейросетью, и о собственности на эти тексты.
  • Лингвисты могут заниматься этими вопросами, так как они имеют философский и содержательный характер.

Вред от рекурсии нейросетей

1:56:02
  • Неизвестно, вредна ли рекурсия нейросетей, когда они обучаются на своих собственных выдачах и затем считывают их.
  • Сложно оценить результаты работы нейросетей, так как есть разные движения в области метрик для оценки языковых моделей.