Эксперимент 26-7B: Грубое форсирование заняло 1-е место в открытой таблице лидеров LLM!

YOUTUBE · 01.12.2025 08:51

Ключевые темы и таймкоды

Введение в тему

0:00
  • 2024 год отмечен появлением модели с открытым исходным кодом на 7 миллиардов параметров.
  • Наблюдается огромный прогресс в области открытого исходного кода.
  • Возникает вопрос: как определить лучшие модели среди тысяч выпущенных?

Новый подход Яна Пелега

0:19
  • Обсуждается новый подход к разработке моделей, не зависящий от слияния или тонкой настройки.
  • Ян Пелег — один из лучших исследователей в области открытого ИИ.
  • Модели experiment 26 и 24b остаются на вершине таблицы лидеров OpenLM.

Особенности модели experiment 267b

1:40
  • Модель experiment 267b Яна Пелега впечатляет своими результатами.
  • Эксперимент направлен на оптимизацию систем обучения и оценки.
  • Цель эксперимента — выявить потенциальные возможности оптимизации.

Методы обучения и данные

3:09
  • Модель обучена на синтетическом наборе данных, созданном с помощью GPT-4 Turbo.
  • Используется непрерывное предварительное обучение с выборками инструкций.
  • Оптимизатор выбирает между DPO и другими потерями на основе сравнения результатов.

Алгоритм грубой силы

3:46
  • Ян Пелег использует алгоритм грубой силы для повышения производительности модели.
  • Манипуляция данными позволяет модели лучше форматировать и сопоставлять информацию.
  • Опробованы различные комбинации методов обучения и трюков.

Оценка производительности

4:51
  • Каждая модель проходит тщательную оценку на шести различных тестах.
  • Оптимизатор «чёрного ящика» максимизирует оценку результирующей модели.
  • Интегрировано больше тестов для предотвращения переобучения.

Тесты и инфраструктура

6:01
  • Используются тесты: EVS, EQBench, Alpaca Eval, Empty Bench, Human Eval, MBPP, AGI Eval, BBC MC, C Truthful, BBHCot и Математика.
  • Вся инфраструктура для проекта создана Яном Пелегом самостоятельно.

Эксперимент и его цели

6:57
  • Оптимизатор не может работать с обучающим набором данных, чтобы избежать переобучения тестовых данных.
  • Цель эксперимента — выяснить, можно ли добиться результатов, не коррелирующих с фактическим улучшением способностей.

Анализ лучших моделей

7:22
  • Ян Пелег реконструировал генеалогическое древо методов некоторых ведущих моделей.
  • Он вручную анализирует, откуда берутся лучшие качества в моделях.
  • Это позволяет понять, как модифицируются и проявляются

Введение в эксперимент

8:09
  • Эксперимент направлен на поиск наилучшего протокола обучения, а не на создание лучшей модели.
  • Модель с 7 миллиардами параметров может оставаться на вершине рейтинга.

Ограничения текущей модели

8:29
  • Текущая модель не готова к использованию, требуется дополнительная работа для её реализации.
  • Модель является побочным продуктом эксперимента и не может быть сразу внедрена в системы ИИ.

Перспективы развития модели

8:59
  • Если грубая сила продолжит работать, модель может оставаться на вершине таблицы лидеров.
  • Возникают вопросы о достоверности тестов и показателей, измеряемых моделями.

Критерии оценки моделей

9:46
  • Таблицы лидеров помогают выровнять предвзятость по ряду критериев.
  • Важно серьёзно относиться к критериям оценки моделей, особенно к таблицам лидеров.

Важность понимания характеристик моделей

10:33
  • Необходимо проверять точность предположений о характеристиках моделей.
  • Непрерывная предварительная подготовка помогает улучшать качество моделей.

Заключение и призыв к обсуждению

11:15
  • Автор призывает зрителей делиться мнением в комментариях.
  • Приглашение поставить лайк, подписаться и поделиться видео.