Лингвистические технологии в Интернете – Анатолий Гершман

YOUTUBE · 19.11.2025 07:52

Ключевые темы и таймкоды

Введение в лингвистические технологии

0:00
  • Люди говорят на более чем шести тысячах живых языков.
  • Более 80% информации в мире представлено в текстовом, речевом и видеоформате.
  • Лингвистические технологии помогают находить, обрабатывать и использовать эту информацию.

Пять областей лингвистических технологий

1:22
  • Технологии поиска информации: Google, Яндекс.
  • Технологии извлечения информации: поиск конкретных фактов и данных.
  • Машинный перевод и генерация текста и речи.
  • Распознавание речи и общение с машинами.

Как работают поисковики

2:52
  • Поисковики рассматривают запросы как "мешочки слов".
  • Они ищут документы, содержащие слова из запроса.
  • Интернет проиндексирован, что позволяет быстро находить нужные документы.

Современные поисковики

4:45
  • Современные поисковики используют более сложные методы.
  • Они учитывают слова в заголовках и количество ссылок на статью.
  • Поисковики работают в паре: один ищет документы, другой - рекламу.

Извлечение информации

7:07
  • Извлекатели информации извлекают конкретные факты и данные.
  • Два подхода к определению тональности текста: слова и статистический классификатор.
  • Комбинированный подход используется для лучшего извлечения информации.

Конвергенция поисковиков и извлекателей

10:05
  • Поисковики начинают включать элементы извлечения информации.
  • Это облегчает поиск и извлечение информации в интернете.