Большая языковая модель MegaGPT + лингвистические правила: гибридный подход для анализа текстов

YOUTUBE · 29.11.2025 04:44

Ключевые темы и таймкоды

Введение

0:03
  • Приветствие и благодарность за участие.
  • Тема вебинара: гибридный подход в текстовой аналитике.
  • Представление Дмитрия Кольцова и компании Мегапьютер.

Сообщество и технологическая революция

0:58
  • Призыв присоединиться к сообществу в Telegram.
  • Обсуждение технологической революции и развития ИИ.
  • Появление GPT-3 модели и её влияние.

Тенденции развития ИИ

1:52
  • Ускорение моделей и мультимодальность ИИ.
  • Интеграция ИИ с сторонними приложениями.
  • ИИ как интерфейс между человеком и приложениями.

Примеры приложений с ИИ

3:40
  • Пример приложения для путешественников.
  • Интеграция ИИ с поисковыми системами и картами.
  • Применение ИИ как ассистента.

Текстовый анализ

5:17
  • Популярные задачи текстового анализа: извлечение сущностей и фактов.
  • Сентиментный анализ и оценка эмоциональной окраски текста.
  • Раннее выявление трендов и классификация текстовых документов.

Доверие к большим языковым моделям

7:50
  • Вопрос о доверии к большим языковым моделям LLM.
  • Возможность внедрения решений на базе LLM в продакшн.

Проблемы внедрения генеративного ИИ

8:09
  • Генеративный ИИ пока не используется для решения критических задач.
  • Компании тестируют технологии, но сталкиваются с "детскими болезнями".
  • Основная проблема — галлюцинации, ИИ может выдавать нереалистичные ответы.

Точность и креативность в коммерческих задачах

9:07
  • В коммерческих задачах важна точность, а не креативность.
  • Примеры задач: анализ корпоративной документации, конкурентная разведка, медицинские исследования.
  • Ошибки в таких задачах могут иметь серьезные последствия, включая здоровье и финансы.

Неструктурированные данные и валидация

10:53
  • Генеративные модели выдают неструктурированные тексты.
  • Валидация результатов затруднена из-за отсутствия подсветки в тексте.
  • Компании не хотят раскрывать конфиденциальные данные, что усложняет использование моделей.

Затраты и низкая согласованность

12:45
  • Использование генеративных моделей требует специального оборудования и значительных затрат.
  • Низкая согласованность ответов моделей вызывает сомнения в достоверности результатов.

Интеграция с аналитическими платформами

14:36
  • Интеграция языковой модели с аналитической платформой помогает последовательно обрабатывать данные.
  • Доступ к модели можно предоставить нескольким подразделениям компании.
  • Проверка результатов модели с помощью различных запросов.

Интеграция с классическими инструментами

15:36
  • Интеграция с лингвистическими правилами и онтологиями повышает эффективность.
  • Гибридный подход ИИ и лингвистических правил дает лучшие результаты.

История обработки естественного языка

16:54
  • Первое использование инструментов обработки естественного языка произошло в 1954 году.
  • В середине 90-х годов интерес к НЛП проявился в бизнесе.
  • В середине 2000-х годов появились модели машинного обучения для обработки текстовых данных.

Развитие генеративного ИИ

18:43
  • В 2018 году появилась первая языковая модель BERT.
  • Будущее развитие связано с интеграцией генеративного ИИ с другими технологиями.

Будущее генеративных моделей

19:42
  • Генеративные модели интегрируются с поисковыми системами и внешними данными.
  • Модели становятся более связанными и сетевыми, что устраняет пробелы в их работе.

Пример задачи для ИИ

21:01
  • Пример задачи: извлечение информации о компаниях и их руководителях из новостных статей.
  • Цель — структурировать данные и улучшить результаты анализа.

Введение в платформу Полилист

21:46
  • Платформа Полилист используется для анализа данных и текстов.
  • Не требует программирования, подходит для бизнес-пользователей.
  • Включает инструменты для загрузки, трансформации, очистки и объединения данных.

Машинное обучение и текстовый анализ

22:39
  • Поддержка классических алгоритмов машинного обучения.
  • Собственные алгоритмы для извлечения сущностей, анализа тональности и классификации текстов.
  • Инструменты разметки и визуализации результатов.

Аналитический сценарий и автоматизация

23:36
  • Аналитический сценарий состоит из узлов, соединяющихся между собой.
  • Возможность автоматизации последовательности действий.
  • Поддержка коллективной работы и интеграции с большими языковыми моделями.

Подключение к языковым моделям

24:34
  • Новый узел для подключения к языковым моделям без программирования.
  • Возможность выбора языковой модели, включая отечественные разработки.
  • Подключение к Mega G5 и Chat G5 через токен.

Использование языковой модели

25:31
  • Пример промта для языковой модели.
  • Постобработка данных и очистка результатов.
  • Пример промта для извлечения фактов из новостных статей.

Проблемы и результаты использования модели

26:50
  • Низкая точность модели 19%.
  • Проблемы с галлюцинациями и нерелевантным контекстом.
  • Необходимость сокращения контекста и удаления нерелевантных данных.

Стоимость и контекстное окно

28:48
  • Высокая стоимость обработки больших объемов данных.
  • Ограничения по длине запросов и необходимость их сокращения.

Отсутствие объяснения результатов

29:47
  • Сложности в проверке правильности извлеченных данных.
  • Примеры галлюцинаций, таких как Герхард Шредер и Билл Гейтс в роли генеральных директоров.

Проблемы модели Дженнифер Гренхольм

31:04
  • Модель ошибочно идентифицировала Дженнифер Гренхольм как генерального директора Netflix и руководителя Минфина США.
  • Модель добавила лишнюю информацию, что усложнило восприятие результатов.

Валидация результатов модели

31:56
  • Результаты модели трудно воспринимать и валидировать без участия человека.
  • Использование инструментов на правилах помогает находить нужные упоминания.

Недостатки генеративного ИИ

32:52
  • Генеративный ИИ может выдавать неожиданные и бесполезные результаты.
  • Пример с ребенком и четырехугольниками показывает, как ИИ может интерпретировать задачу.

Преимущества лингвистических правил

33:49
  • Лингвистические правила надежны и быстро отрабатывают на больших массивах текстов.
  • Они дешевле и не галлюцинируют, опираясь строго на заданный контекст.

Недостатки лингвистических правил

34:38
  • Правила требуют сложной предварительной настройки и имеют меньшую полноту.
  • Чем шире контекст, тем сложнее настройка правил.

Пример правила

36:27
  • Пример правила для поиска актуальных генеральных директоров без прилагательных "бывший" и "заместитель".
  • Правило отсекает неактуальные данные и дает существенные результаты.

Ограничения правил

38:23
  • Правила не справляются с широкими контекстами, где упоминаются компании и генеральные директора в разных частях предложения.
  • Генеративный ИИ может установить такие связи, но это требует более сложных алгоритмов.

Перспективы генеративного ИИ и лингвистических правил

38:42
  • Генеративный ИИ перспективен и будет развиваться.
  • Лингвистические правила стабильны и используются уже 70 лет.
  • Вопрос в том, можно ли взять лучшее от обоих подходов.

Гибридный подход к интеграции ИИ и правил

39:04
  • Интеграция новых технологий ИИ с правилами.
  • Три этапа гибридного подхода: контекстная фильтрация, генеративные ИИ, валидация.
  • Контекстная фильтрация: выделение абзацев с упоминанием генерального директора.

Генеративные ИИ и валидация

39:51
  • Подача фрагментов текста в генеративные ИИ для повышения точности.
  • Гибридная валидация: самопроверка ИИ и ручная валидация человеком.
  • Пример самопроверки: проверка наличия информации о генеральном директоре.

Результаты валидации

42:39
  • В 75% случаев самопроверка ИИ совпала с валидацией человека.
  • Точность ИИ: 19%, правил: 98%, гибридного подхода: 73%.
  • Преимущества гибридного подхода: меньшие трудозатраты и стоимость.

Трудозатраты и стоимость

44:31
  • Гибридный подход требует меньше времени на разработку.
  • Стоимость обработки миллиона текстов: гибридный подход дешевле.
  • Примеры, где гибридный подход нашел информацию, которую не нашли правила.

Демонстрация системы

47:34
  • Полионалист: клиент-серверная система для работы с ИИ.
  • Загрузка новостей и сравнение подходов: ИИ, правила, гибридный подход.
  • Результаты: 19%, 98%, 73% точности.

Настройки модели

48:34
  • Настройки модели: температура, креативность, вариабельность ответов.
  • Функции модели: резюмирование, извлечение сущностей, анализ тональности, перевод, перефразирование.
  • Типы вопросов: текстовые и наборы вопросов.

Комбинирование запросов с колонками

50:00
  • Синтаксис позволяет комбинировать запросы с колонками.
  • Можно добавить колонку с текстом для анализа.
  • Результат включает заголовок статьи, текст статьи, URL статьи, даты и другие данные.

Постобработка и структурирование текста

50:57
  • Ответ модели не всегда структурирован, требуется постобработка.
  • Узел извлечения атрибутов позволяет писать правила на регулярных выражениях.
  • Правила помогают извлекать генеральных директоров и названия компаний.

Извлечение сущностей и атрибутов

52:41
  • Узлы извлечения сущностей могут извлекать до 20-30 типов сущностей.
  • Сущности имеют атрибуты, такие как тип организации, расположение, индустрия.
  • Система распознает денежные суммы и даты в любом формате.

Тестирование правил и подсветка сущностей

55:33
  • Правила тестируются для проверки их работы.
  • Подсветка сущностей помогает в дальнейшей валидации.
  • Правила подсвечивают генерального директора и компанию в тексте.

Валидация результатов

58:50
  • Валидация состоит из трех этапов: передача, самовылидация ИИ, ручная проверка человеком.
  • Человек вручную корректирует таблицу, вводя новые данные или помечая ошибки.
  • Система справилась на 75% с валидацией.

Преимущества гибридного подхода

1:00:58
  • Высокая точность 79% по сравнению с 73% у чистого ИИ.
  • Полнота выше, чем у подхода на правилах.
  • Правила проще и короче, что снижает трудозатраты.

Экономическая выгода

1:02:38
  • Стоимость использования платных GPT-моделей снижается в 150 раз.
  • Правила отсеивают нерелевантные контексты, оставляя релевантную информацию.

Будущее применения

1:02:38
  • Ожидается широкое применение генеративного ИИ и больших языковых моделей.
  • Гибридный подход будет использоваться для решения критических задач, таких как проверка документов.

Пример использования

1:03:24
  • Эксперимент по анализу уставов компаний.
  • Гибридный подход выявляет правовые сущности и извлекает их из документов.

Результаты эксперимента

1:04:23
  • Подсветка найденных сущностей в тексте.
  • Создание сводной карточки с информацией для дальнейшей обработки.

Вопросы и ответы

1:06:15
  • Возможность использования Polylist как микросервиса.
  • Поддержка различных моделей и адаптеров.

Токенизация и векторизация

1:08:46
  • Процесс токенизации и создания векторов.
  • Бизнес-задачи и их решение с помощью гибридного подхода.

Поддержка операционных систем

1:10:41
  • Поддержка Linux и других Unix-подобных систем.
  • Возможность запуска на Red Hat и других дистрибутивах.

Сложность задач и выводы

1:12:28
  • Гибридный подход эффективен даже на простых задачах.
  • Сложные задачи сложнее поддаются обобщению и выводам.
  • Для тестов лучше использовать более обозримые простые задачи.

Сложности поиска генеральных директоров

1:14:50
  • Задача поиска генеральных директоров требует многошагового подхода.
  • Необходимо собирать информацию, выделять сущности и фильтровать данные.
  • Решение задачи требует серьезных мыслительных усилий и логического механизма.

Применение аналитических инструментов

1:15:39
  • Поле Аналисти умеет извлекать информацию об уголовных делах в отношении компаний.
  • Задача требует дообучения языковых моделей на специальной терминологии.
  • Обучение адаптеров и моделей на специфичных текстах необходимо.

Проблемы и перспективы дообучения

1:16:29
  • Дообучение языковых моделей на специфичных текстах требует больших вычислительных и временных усилий.
  • Это реальный и необходимый подход, хотя и сложный.

Вопросы и агрегация результатов

1:17:04
  • Обсуждение возможности агрегации результатов анализа информации.
  • Вопрос о создании комплексов паттернов для работы других систем.

Агрегация результатов и структурирование данных

1:18:42
  • Возможность агрегации результатов анализа и их структурирования.
  • Палеонлист может выдавать результаты в структурированном виде.
  • Инструменты для агрегации результатов доступны и просты в использовании.

Завершение и приглашение к дискуссии

1:20:17
  • Призыв задавать вопросы в сообществе для обсуждения и поиска новых решений.
  • Дискуссия способствует рождению новых идей и свежих взглядов.
  • Благодарность участникам и прощание.