Новая модель от компании Open AI 0:00 Модель называется "Ссора" и предназначена для генерации видео. Она генерирует реалистичные видео, без дерганий и с консистентностью.
Технический отчет и презентация 3:37 Технический отчет является научной работой, где описан основной принцип работы модели. Модель использует диффузионную модель для генерации изображений и видео.
Обучение модели и ее особенности 6:13 Модель обучалась на колоссальном количестве видео, которые были порезаны на кадры. Модель составная, состоит из нескольких нейронных сетей, которые работают вместе. Модель следит за тем, чтобы кадры не плавали и человек располагался в одном месте. Модель также проверяет каждый кадр и склейку кадров.
Нейросети и их возможности 11:37 Видеоролики, созданные нейросетями, выглядят очень круто из-за обратной связи и контроля. Нейросети могут создавать трехмерные модели мира, что позволяет им делать правильные облеты и не терять объекты.
Применение нейросетей в робототехнике 15:31 Нейросети помогают роботам лучше ориентироваться в физическом мире, используя зрение. Роботы могут обучаться, используя оптические и физические данные, что позволяет им учиться, как маленькие дети. Роботы с нейросетевыми моделями могут быстрее обучаться и адаптироваться к изменениям в окружающей среде.
Нейросети и их возможности 20:17 Нейросети учатся как живые существа, методом проб и ошибок, падают, поднимаются, спотыкаются. Появилась цепочка обратной связи через визуальный канал.
Мультики, которые нейросеть рисует 21:16 Есть вопросы по физике и качеству генерации. Нейросеть исправляет надписи и дорисовывает текст.
Стоимость генерации и время 26:54 Стоимость генерации может быть высокой, особенно если учитывать время и брак. Вопросы о реальном времени генерации и соотношении качественной и бракованной генерации.
Консистентность кадров 30:21 Достигается за счет мультимодальной модели и нейроагента, который следит за последовательностью кадров. Реальная генерация пока неизвестна, но видео в интернете выглядят довольно консистентно.
Детальное текстовое описание 32:20 Нейросеть "Ссора" изучала и анализировала видео с YouTube, разбивая их на кадры и описывая каждый кадр с помощью существующей модели от Open G Five. Это заняло много времени и потребовало большого количества токенов (триллионы токенов).
Доступность и использование 33:20 Бесплатная версия нейросети "Ссора" недоступна, но есть платные версии. Нейросеть может генерировать видео с частотой 20-30 кадров в секунду, что требует большого объема изображений. Нейросети начинают изучать мир и собирать модель физического мира, что является прорывом и может привести к интересным результатам в течение года.