Александр Пиперски: "Лингвистические итоги 2023 года"

Итоги лингвистического года

0:14

Лектор обсуждает достижения теоретической лингвистики, прикладной лингвистики, персоналии великих лингвистов и слова года.
Он подчеркивает, что сложно судить о том, что войдет в историю лингвистики, так как многое зависит от медийных событий.

Дешифровка кушанского письма

5:37

В прошлом году была дешифрована система письма кушанского царства, которая была распространена во втором веке до нашей эры - третьем веке нашей эры.
Ученые из Германии и Таджикистана смогли частично расшифровать письмо, которое было написано на индоевропейских языках.
Важным шагом в дешифровке является предположение о языке, на котором написан текст, и наличие параллельных текстов на известном и неизвестном языках.
Надпись с щелиал моси стала ключевым свидетелем для дешифровки кушанского письма.
Ученые составили таблицу символов письма, которая помогла определить, что это буквенное или конценантное письмо.

Дешифровка кушанского письма

13:17

В надписи на кушанском языке упоминается царь царей Шауна.
Дешифровка надписи позволила определить, что царь царей Шауна был записан на бактрийском языке.
В кушанском тексте, прочитанном справа налево, можно увидеть символы с диакритиками, которые позволяют определить, что это иранский язык.

Искусственные нейронные сети и большие языковые модели

21:32

В этом году стало сложнее проводить исследования в области теоретической лингвистики из-за распространения искусственных нейронных сетей и больших языковых моделей.
Грейвил Корбетт предложил типологию связей между словами в составе предложения, которая может быть полезна для изучения языкового разнообразия мира.

Типология внешних расщеплений

26:15

В статье Корбта вводится термин "антиуправление", который описывает ситуацию, когда признак главного слова определяет выбор зависимого слова.
В древнегреческом языке есть два типа отрицания: "у" и "м", и выбор отрицательного слова зависит от наклонения глагола.

Расщепленное управление

31:07

В русском языке глаголы, выражающие стимул, могут управлять творительным или винительным падежом.
В грузинском языке субъекты и объекты в разных временных формах оформляются по-разному.

Расщепленное управление по зависимому слову

33:15

В турецком языке местоимения принимают родительный падеж, а существительные остаются в начальной форме.
В белорусском языке предлог "по" управляет предложенным падежом в конструкциях типа "соревнования по футболу".

Проект граф банк

35:19

В этом году вышел проект "Граф банк", который представляет собой стандартизованную базу с типологической информацией о свойствах языков.
В проекте собрано 2467 языков и 195 признаков, на которые получено 362 тысячи ответов.

Счет по частям тела

37:42

В некоторых языках есть счет по частям тела, например, в языке бомбон.
В русском языке такого счета нет.

Всемирные атласы языков

40:17

Всемирные атласы языков, такие как Грабак, позволяют проводить типологические исследования на большой выборке языков мира.
Грабак имеет более полную информацию о языках, чем Всемирный атлас языковых структур Уоллс Дот Инфо.

Социолингвистическая типология

44:05

Статья "Комплекс сообщество незнакомцев, сообщество чужаков не говорят на более простых языках" спорит с идеей о том, что языки межнационального общения более простые.
Исследование на материале Грабака показало, что сложность языка лучше предсказывается географически и генетически, чем социолингвистическими параметрами.

Сложность языков

50:42

В исследовании, опубликованном в 2020 году, авторы проанализировали сложность уральских языков, используя данные из грабака.
Они обнаружили, что сложность языков не коррелирует с их размером, и что генеалогия и распространение языков объясняют большую часть вариативности.

Большие языковые модели

55:02

В 2021 году лингвистика оказалась под вопросом из-за появления больших языковых моделей, таких как ChatGPT.
Возникают вопросы о том, как эти модели могут повлиять на лингвистическую теорию и исследования.
Некоторые лингвисты предлагают использовать большие языковые модели как инструмент для исследований, в то время как другие ставят под сомнение их научную ценность.

Жанровая разметка

59:18

В компьютерной лингвистике сложно определить и формализовать жанры, так как они могут быть разными и иметь множество признаков.
Жанровая разметка влияет на результаты исследований на больших массивах текстов.
Автоматическая разметка без ручной аннотации может быть выполнена с помощью больших языковых моделей, таких как ChatGPT.

Применение ChatGPT в корпусе лингвистики

1:06:42

ChatGPT может анализировать корпусные данные и выдавать ответы на вопросы о сочетаемости слов.
Большие языковые модели могут справляться с анализом тональности, но испытывают трудности с энциклопедическими знаниями.

Языковые модели и их взаимодействие с теорией языка

1:10:49

Языковые модели могут оценивать свой уровень компетентности и понимать, с какой вероятностью они выдают галлюцинации.
Проект Сел в Чак G Пяти реализует идею поиска галлюцинаций в больших знаковых моделях без специальных обучающих выборок.
Искусственные нейронные сети могут порождать ответы на один и тот же вопрос несколько раз, что позволяет выявлять галлюцинации.

Генеративная грамматика и искусственные нейронные сети

1:15:00

Генеративная грамматика делает много сильных предположений о природе языка, которые искусственные нейронные сети не нуждаются.
Искусственные нейронные сети прекрасно справляются с генерацией предложений без использования деревьев и других структур.
Стивен Пинтадосе утверждает, что современные языковые модели опровергают подход Хопского к языку.
В искусственных нейронных сетях важную роль играют частотность, вероятность и избыточность языка, что не важно для генеративной грамматики.

Лингвисты и их вклад

1:23:08

Упоминаются лингвисты Виталий Викторович Ивашкин и Владимир Александрович Дебо, которые внесли вклад в дешифровку малых анталийских языков, фонетическую типологию и славянскую и балтийскую цитологию.
Ивашкин известен своими трудами в области дешифровки корейского языка, а Дебо сформулировал систему ударения для праславянского и балто-славянского языков.

Слова года

1:31:01

В английском языке словом года стал "галлюцинировать", в немецком - "кризисный способ существования", в русском - "искусственный интеллект" и "нейросеть".
В русском языке также обсуждались слова "имба" и "то", но они не были выбраны в качестве слова года.

Обсуждение лингвистических терминов

1:37:19

Обсуждение слова "имба", которое является интересным примером нерасчлененности частей речи в русском языке.
Упоминание слова "пон", которое может быть как существительным, так и глаголом.
Упоминание глагола "го" в баскетболе.

Вопросы и ответы

1:44:07

Ответ на вопрос о том, как разрабатывались лингвистические термины без участия лингвистов.
Ответ на вопрос о том, насколько генеративная лингвистика работает в сфере лингвистических терминов.
Ответ на вопрос о том, чем занимается автор в настоящее время.

Алармистские воззрения лингвистов

1:52:09

Лингвисты видят, что нейросети моделируют язык, но не испытывают сильного алармизма в отношении их развития.
Лингвисты понимают, как обучаются нейросети, проблемы с репрезентативностью обучающих выборок и вопросы о том, как наполнять лингвистические корпуса.

Вопросы нейросетевой этики

1:54:07

Вопросы об авторстве текста, порождаемого нейросетью, и о собственности на эти тексты.
Лингвисты могут заниматься этими вопросами, так как они имеют философский и содержательный характер.

Вред от рекурсии нейросетей

1:56:02

Неизвестно, вредна ли рекурсия нейросетей, когда они обучаются на своих собственных выдачах и затем считывают их.
Сложно оценить результаты работы нейросетей, так как есть разные движения в области метрик для оценки языковых моделей.

Александр Пиперски: "Лингвистические итоги 2023 года"

Ключевые темы и таймкоды

Итоги лингвистического года

Дешифровка кушанского письма

Дешифровка кушанского письма

Искусственные нейронные сети и большие языковые модели

Типология внешних расщеплений

Расщепленное управление

Расщепленное управление по зависимому слову

Проект граф банк

Счет по частям тела

Всемирные атласы языков

Социолингвистическая типология

Сложность языков

Большие языковые модели

Жанровая разметка

Применение ChatGPT в корпусе лингвистики

Языковые модели и их взаимодействие с теорией языка

Генеративная грамматика и искусственные нейронные сети

Лингвисты и их вклад

Слова года

Обсуждение лингвистических терминов

Рекомендации для чтения и прослушивания

Вопросы и ответы

Алармистские воззрения лингвистов

Вопросы нейросетевой этики

Вред от рекурсии нейросетей