Введение 0:03 Приветствие и благодарность за участие. Тема вебинара: гибридный подход в текстовой аналитике. Представление Дмитрия Кольцова и компании Мегапьютер.
Сообщество и технологическая революция 0:58 Призыв присоединиться к сообществу в Telegram. Обсуждение технологической революции и развития ИИ. Появление GPT-3 модели и её влияние.
Тенденции развития ИИ 1:52 Ускорение моделей и мультимодальность ИИ. Интеграция ИИ с сторонними приложениями. ИИ как интерфейс между человеком и приложениями.
Примеры приложений с ИИ 3:40 Пример приложения для путешественников. Интеграция ИИ с поисковыми системами и картами. Применение ИИ как ассистента.
Текстовый анализ 5:17 Популярные задачи текстового анализа: извлечение сущностей и фактов. Сентиментный анализ и оценка эмоциональной окраски текста. Раннее выявление трендов и классификация текстовых документов.
Доверие к большим языковым моделям 7:50 Вопрос о доверии к большим языковым моделям LLM. Возможность внедрения решений на базе LLM в продакшн.
Проблемы внедрения генеративного ИИ 8:09 Генеративный ИИ пока не используется для решения критических задач. Компании тестируют технологии, но сталкиваются с "детскими болезнями". Основная проблема — галлюцинации, ИИ может выдавать нереалистичные ответы.
Точность и креативность в коммерческих задачах 9:07 В коммерческих задачах важна точность, а не креативность. Примеры задач: анализ корпоративной документации, конкурентная разведка, медицинские исследования. Ошибки в таких задачах могут иметь серьезные последствия, включая здоровье и финансы.
Неструктурированные данные и валидация 10:53 Генеративные модели выдают неструктурированные тексты. Валидация результатов затруднена из-за отсутствия подсветки в тексте. Компании не хотят раскрывать конфиденциальные данные, что усложняет использование моделей.
Затраты и низкая согласованность 12:45 Использование генеративных моделей требует специального оборудования и значительных затрат. Низкая согласованность ответов моделей вызывает сомнения в достоверности результатов.
Интеграция с аналитическими платформами 14:36 Интеграция языковой модели с аналитической платформой помогает последовательно обрабатывать данные. Доступ к модели можно предоставить нескольким подразделениям компании. Проверка результатов модели с помощью различных запросов.
Интеграция с классическими инструментами 15:36 Интеграция с лингвистическими правилами и онтологиями повышает эффективность. Гибридный подход ИИ и лингвистических правил дает лучшие результаты.
История обработки естественного языка 16:54 Первое использование инструментов обработки естественного языка произошло в 1954 году. В середине 90-х годов интерес к НЛП проявился в бизнесе. В середине 2000-х годов появились модели машинного обучения для обработки текстовых данных.
Развитие генеративного ИИ 18:43 В 2018 году появилась первая языковая модель BERT. Будущее развитие связано с интеграцией генеративного ИИ с другими технологиями.
Будущее генеративных моделей 19:42 Генеративные модели интегрируются с поисковыми системами и внешними данными. Модели становятся более связанными и сетевыми, что устраняет пробелы в их работе.
Пример задачи для ИИ 21:01 Пример задачи: извлечение информации о компаниях и их руководителях из новостных статей. Цель — структурировать данные и улучшить результаты анализа.
Введение в платформу Полилист 21:46 Платформа Полилист используется для анализа данных и текстов. Не требует программирования, подходит для бизнес-пользователей. Включает инструменты для загрузки, трансформации, очистки и объединения данных.
Машинное обучение и текстовый анализ 22:39 Поддержка классических алгоритмов машинного обучения. Собственные алгоритмы для извлечения сущностей, анализа тональности и классификации текстов. Инструменты разметки и визуализации результатов.
Аналитический сценарий и автоматизация 23:36 Аналитический сценарий состоит из узлов, соединяющихся между собой. Возможность автоматизации последовательности действий. Поддержка коллективной работы и интеграции с большими языковыми моделями.
Подключение к языковым моделям 24:34 Новый узел для подключения к языковым моделям без программирования. Возможность выбора языковой модели, включая отечественные разработки. Подключение к Mega G5 и Chat G5 через токен.
Использование языковой модели 25:31 Пример промта для языковой модели. Постобработка данных и очистка результатов. Пример промта для извлечения фактов из новостных статей.
Проблемы и результаты использования модели 26:50 Низкая точность модели 19%. Проблемы с галлюцинациями и нерелевантным контекстом. Необходимость сокращения контекста и удаления нерелевантных данных.
Стоимость и контекстное окно 28:48 Высокая стоимость обработки больших объемов данных. Ограничения по длине запросов и необходимость их сокращения.
Отсутствие объяснения результатов 29:47 Сложности в проверке правильности извлеченных данных. Примеры галлюцинаций, таких как Герхард Шредер и Билл Гейтс в роли генеральных директоров.
Проблемы модели Дженнифер Гренхольм 31:04 Модель ошибочно идентифицировала Дженнифер Гренхольм как генерального директора Netflix и руководителя Минфина США. Модель добавила лишнюю информацию, что усложнило восприятие результатов.
Валидация результатов модели 31:56 Результаты модели трудно воспринимать и валидировать без участия человека. Использование инструментов на правилах помогает находить нужные упоминания.
Недостатки генеративного ИИ 32:52 Генеративный ИИ может выдавать неожиданные и бесполезные результаты. Пример с ребенком и четырехугольниками показывает, как ИИ может интерпретировать задачу.
Преимущества лингвистических правил 33:49 Лингвистические правила надежны и быстро отрабатывают на больших массивах текстов. Они дешевле и не галлюцинируют, опираясь строго на заданный контекст.
Недостатки лингвистических правил 34:38 Правила требуют сложной предварительной настройки и имеют меньшую полноту. Чем шире контекст, тем сложнее настройка правил.
Пример правила 36:27 Пример правила для поиска актуальных генеральных директоров без прилагательных "бывший" и "заместитель". Правило отсекает неактуальные данные и дает существенные результаты.
Ограничения правил 38:23 Правила не справляются с широкими контекстами, где упоминаются компании и генеральные директора в разных частях предложения. Генеративный ИИ может установить такие связи, но это требует более сложных алгоритмов.
Перспективы генеративного ИИ и лингвистических правил 38:42 Генеративный ИИ перспективен и будет развиваться. Лингвистические правила стабильны и используются уже 70 лет. Вопрос в том, можно ли взять лучшее от обоих подходов.
Гибридный подход к интеграции ИИ и правил 39:04 Интеграция новых технологий ИИ с правилами. Три этапа гибридного подхода: контекстная фильтрация, генеративные ИИ, валидация. Контекстная фильтрация: выделение абзацев с упоминанием генерального директора.
Генеративные ИИ и валидация 39:51 Подача фрагментов текста в генеративные ИИ для повышения точности. Гибридная валидация: самопроверка ИИ и ручная валидация человеком. Пример самопроверки: проверка наличия информации о генеральном директоре.
Результаты валидации 42:39 В 75% случаев самопроверка ИИ совпала с валидацией человека. Точность ИИ: 19%, правил: 98%, гибридного подхода: 73%. Преимущества гибридного подхода: меньшие трудозатраты и стоимость.
Трудозатраты и стоимость 44:31 Гибридный подход требует меньше времени на разработку. Стоимость обработки миллиона текстов: гибридный подход дешевле. Примеры, где гибридный подход нашел информацию, которую не нашли правила.
Демонстрация системы 47:34 Полионалист: клиент-серверная система для работы с ИИ. Загрузка новостей и сравнение подходов: ИИ, правила, гибридный подход. Результаты: 19%, 98%, 73% точности.
Настройки модели 48:34 Настройки модели: температура, креативность, вариабельность ответов. Функции модели: резюмирование, извлечение сущностей, анализ тональности, перевод, перефразирование. Типы вопросов: текстовые и наборы вопросов.
Комбинирование запросов с колонками 50:00 Синтаксис позволяет комбинировать запросы с колонками. Можно добавить колонку с текстом для анализа. Результат включает заголовок статьи, текст статьи, URL статьи, даты и другие данные.
Постобработка и структурирование текста 50:57 Ответ модели не всегда структурирован, требуется постобработка. Узел извлечения атрибутов позволяет писать правила на регулярных выражениях. Правила помогают извлекать генеральных директоров и названия компаний.
Извлечение сущностей и атрибутов 52:41 Узлы извлечения сущностей могут извлекать до 20-30 типов сущностей. Сущности имеют атрибуты, такие как тип организации, расположение, индустрия. Система распознает денежные суммы и даты в любом формате.
Тестирование правил и подсветка сущностей 55:33 Правила тестируются для проверки их работы. Подсветка сущностей помогает в дальнейшей валидации. Правила подсвечивают генерального директора и компанию в тексте.
Валидация результатов 58:50 Валидация состоит из трех этапов: передача, самовылидация ИИ, ручная проверка человеком. Человек вручную корректирует таблицу, вводя новые данные или помечая ошибки. Система справилась на 75% с валидацией.
Преимущества гибридного подхода 1:00:58 Высокая точность 79% по сравнению с 73% у чистого ИИ. Полнота выше, чем у подхода на правилах. Правила проще и короче, что снижает трудозатраты.
Экономическая выгода 1:02:38 Стоимость использования платных GPT-моделей снижается в 150 раз. Правила отсеивают нерелевантные контексты, оставляя релевантную информацию.
Будущее применения 1:02:38 Ожидается широкое применение генеративного ИИ и больших языковых моделей. Гибридный подход будет использоваться для решения критических задач, таких как проверка документов.
Пример использования 1:03:24 Эксперимент по анализу уставов компаний. Гибридный подход выявляет правовые сущности и извлекает их из документов.
Результаты эксперимента 1:04:23 Подсветка найденных сущностей в тексте. Создание сводной карточки с информацией для дальнейшей обработки.
Вопросы и ответы 1:06:15 Возможность использования Polylist как микросервиса. Поддержка различных моделей и адаптеров.
Токенизация и векторизация 1:08:46 Процесс токенизации и создания векторов. Бизнес-задачи и их решение с помощью гибридного подхода.
Поддержка операционных систем 1:10:41 Поддержка Linux и других Unix-подобных систем. Возможность запуска на Red Hat и других дистрибутивах.
Сложность задач и выводы 1:12:28 Гибридный подход эффективен даже на простых задачах. Сложные задачи сложнее поддаются обобщению и выводам. Для тестов лучше использовать более обозримые простые задачи.
Сложности поиска генеральных директоров 1:14:50 Задача поиска генеральных директоров требует многошагового подхода. Необходимо собирать информацию, выделять сущности и фильтровать данные. Решение задачи требует серьезных мыслительных усилий и логического механизма.
Применение аналитических инструментов 1:15:39 Поле Аналисти умеет извлекать информацию об уголовных делах в отношении компаний. Задача требует дообучения языковых моделей на специальной терминологии. Обучение адаптеров и моделей на специфичных текстах необходимо.
Проблемы и перспективы дообучения 1:16:29 Дообучение языковых моделей на специфичных текстах требует больших вычислительных и временных усилий. Это реальный и необходимый подход, хотя и сложный.
Вопросы и агрегация результатов 1:17:04 Обсуждение возможности агрегации результатов анализа информации. Вопрос о создании комплексов паттернов для работы других систем.
Агрегация результатов и структурирование данных 1:18:42 Возможность агрегации результатов анализа и их структурирования. Палеонлист может выдавать результаты в структурированном виде. Инструменты для агрегации результатов доступны и просты в использовании.
Завершение и приглашение к дискуссии 1:20:17 Призыв задавать вопросы в сообществе для обсуждения и поиска новых решений. Дискуссия способствует рождению новых идей и свежих взглядов. Благодарность участникам и прощание.