Прошлый год запомнился бумом качества генерации текста, а сегодня нам уже сложно отличить фейковое видео от настоящего. Какие еще тренды AI ожидают нас в 2024-м году, что происходит с контентом и какие программы использует Алексей Картынник в создании подкаста АйТиБорода? Приводим текстовую транскрипцию интервью.
Алексей Картынник — разработчик, DevRel-специалист, автор IT и AI подкастов на YouTube.
— Что интересного происходит в мире ИИ?
Выделю, наверное, две новости. Первая уже около месяца как покоряет интернет. OpenAI, компания, которая создала чат GPT, показала, как классно могут работать нейросети, которые генерируют видео. Новая модель под названием SORA генерирует десятки секунд видео в очень приближенном к реалистичности качеству, где нет практически никаких огрех.
В прошлом году нейросети тоже умели генерировать видео, но они делали это весьма странным образом, и с первого взгляда было видно, что там куча погрешностей. Поэтому то, что сделали OpenAI — это качественно новый уровень. И если они сумеют за этот год систему довести до продакшена и конечных пользователей, удешевить ее, то мы сможем генерировать кучу видео с несуществующими людьми и несуществующими объектами, но такого качества, что их невозможно будет отличить от действительности.
Новость интересна тем, что через видеогенерацию мы приближаемся к миру, когда у нас, в принципе, много чего будет генерироваться как видео, но мы будем взаимодействовать с этим видео и воспринимать это, как, например, работу программы. То есть не нужно будет писать игру, достаточно будет объяснить нейросети правила игры, рассказать, как она должна будет выглядеть, какие там есть персонажи, и рассказать, как генерацией видео можно будет управлять. Условно мы нажимаем клавишу влево, наш персонаж идет влево, нажимаем вверх, персонаж прыгает. И таким образом эти системы будут на лету генерировать следующий кадр, либо несколько следующих секунд нашей условной игры, в зависимости от того, что мы нажимаем. Мы перейдем от написания кода для игр, для каких-либо программ, к генерации видео по запросу пользователя.
Вторая связана с недавно выпущенной моделью компании Antropic под названием Claude 3. Claude 3 — это один из главных конкурентов GPT-4 от OpenAI, достаточно сильная языковая модель. И что интересно, компании Antropic, они очень сильно запариваются на безопасность своих моделей, и, соответственно, перед выпуском их в продакшен, проводят разнообразные тесты.
Один из тестов называется ARA (Autonomous Replication and Adaptation), автономная репликация и адаптация. Тест проверяет, может ли языковая модель сама, автономно, без участия пользователя, скопировать себя в другие места и запуститься там. То есть по факту этот тест показывает, безопасно ли может работать модель с точки зрения распространения ее без контролируемого во весь интернет. И это то, про что люди, пользователи, конечно, мало думают, но мы стремимся к созданию сильного искусственного интеллекта, который будет способен производить практически все то, что может делать человек, то есть приближенный к человеческому интеллекту.
И одна из самых больших опасностей — это то, что такие системы смогут себя реплицировать бесконтрольно и таким образом выходить из-под контроля. Потому что когда они находятся в лабораторных условиях, в какой-то коробочке, с ними могут делать все, что угодно. Но если вдруг эта сеть будет вести себя ненадлежащим образом, то нужно быть уверенным, что эти сети не смогут себя скопировать вовне. И тут есть разные способы.
Во-первых, никто не подключает к интернету напрямую, все это работает на компьютерах, изолированных от сети. И сама сеть должна быть настолько интеллектуальной, чтобы быть способной себя скопировать, чтобы быть способной произвести все эти действия. Ведь скопировать себя в другие сегменты интернета не такая простая задача. Нужно найти, куда скопировать, подключиться к этому месту, скопировать себя. Либо не просто скопировать, а дообучить, сделать какой-то базовый слепок себя где-то на удаленном сервере, и дообучить себя, и потом запустить. Но, в общем-то, это сложная задача даже для инженера, не то что для нейросети.
И вот Claude 3, пройдя этот тест, он все еще не научился себя реплицировать, однако он получил уровень ISL-2 (это предпоследний уровень перед тем, чтобы сеть уже могла себя скопировать). То есть если нейросеть получает уровень ASL3, это значит, что она способна самостоятельно воспроизводить себя в других местах. И останется буквально одна задача для того, чтобы эта система могла себя копировать. Вот эта вот новость меня тоже удивила, поразила, насколько быстро мы пришли к тем системам, про которые мы видели в фантастических фильмах еще буквально пять лет назад. Системы, которые могут себя копировать и воспроизводить, самовоспроизводить.
— Как ИИ меняет нашу реальность? Что появится в скором времени, а что уйдет?
Я думаю, что мы, во-первых, движемся в реальность фейков, мы уже в ней. Если мы все привыкли жить в реальности, где информация по умолчанию правдива, и если она не правдива, то нам нужно это доказывать, то сейчас мы пришли мир, в которым по умолчанию все неправда. Потому что уже нейросети генерят отличные фейковые тексты, футуриалистичные изображения. Вспомним папу римского в белом пуховике, фотографию взрыва пентагона которая растиражирована миллионными просмотрами в самых крупных новостных изданиях по всему миру, а на самом деле оказались фейками. Это году мы пришли к фейковым видео, фейковым аудио, вплоть до того, что по телефону вам могут звонить ваши мамы, папы, бабушки с теми же интонациями, но это будут не они. Поэтому это самое главное, что уже изменилась нашей реальности, к чему нужно привыкать. Фейки становится нормой, а навык факт-чекинга информации становится базовой для нас.
Ну а если говорить про какие-то практические применения, то точно мы уже видим то, что контент создается в большой степени в паре с AI, генерирует сценарии, картинки. С помощью AI уже делают цифровых клонов людей, которые потом генерируют контент, AI делает озвучку, делает озвучку с нуля озвучку. Соответственно, в создании контента мы будем видеть все больше и больше AI инструментов, возможно, в каком-то будущем только они останутся, а контент, созданный человеком станет сродни ремеслу. То же самое, кстати, и в программировании может произойти.
Так как я программированием много занимаюсь и слежу за трендами AI и программирования, кажется, будто бы программирование может уйти на узкий навык. Глубоко в программировании каких-то узких систем будут разбираться суперкрутые специалисты, а все остальные, не знаю, будут ли они называться программисты, они будут работать с AI-помощниками и просто говорить им, что нужно делать. Описывать им систему, описывать программное обеспечение, а эти AI-ассистенты уже будут дописывать код, причем неважно, какой код, на каком языке, главное, чтобы именно вход, вот эти вот люди, так называемые AI-программисты, подавали правильную информацию, понятную информацию, и на выходе получали необходимый результат.
— На что будет упор в области ИИ в 2024-м? Что прямо сейчас уже происходит?
23-й год был годом текстовых генераций и годом того, что AI наконец-то научился генерировать отлично текст, так что человек не может разобрать, сделано ли это AI или не AI, ну и вообще работа с текстом. В конце 23-го года мы увидели прострел работы с аудио, когда появились аудиоклонирования, в смысле клонирования человеческого голоса, озвучка профессиональная с придыханиями, со всеми точками, расстановками. Этот год бесспорно объявлен годом видео.
Да, еще в 2023 году мы увидели прогресс в генерации изображений от совсем неуклюжих до фотореалистичных, неотличимых от реальности. Этот год и, скорее всего, следующий будет годом видеогенерации. Возможно, к концу этого года мы увидим системы типа вот SORA от OpenAI, которые можно будет использовать за относительно небольшие деньги и генерировать жизнереалистичные видосы. То есть видосы, которые обычный человек, просмотрев, не сможет отличить от видео, которые создавались бы людьми. Это самый большой тренд на сегодняшний год.
Плюс тренд в конце прошлого года и этого года — это создание так называемых мультимодальных моделей, мультимодальных нейросетей. На данный момент практически все нейросети работают в так называемой одной модальности. То есть на вход они принимают один тип данных. Например, это может быть текст (как раньше был ChatGPT), если мы говорим про Midjourney, то это текст в изображении, есть AI, которые работают с изображениями и переделывают в другие изображения, вот это значения одной модальности, на входе мы работаем с одним типом данных. Есть псевдо мультимодальная сети, когда ты на вход можешь подать и текст, и картинку, и может даже к нибудь файлы и сервис их обработает и выдаст какой-то результат, например так работает Chat GPT.
— Почему это псевдомодальность?
Потому что под капотом у таких систем крутится несколько моделей, каждая из которых работает со своей отдельной модальностью: текстовые модели, большие языковые модели с текстами, диффузионные модели с изображениями и тренд в том, чтобы научить разработать модель, которая сможет работать сразу с несколькими с видами информации на входе. Чтобы мы подавали на вход и текст, и изображение, и аудио, и файлы, и видео и все это единым механизмом под капотом обрабатывалась как-то и выдавал результат.
На данный момент Google лидирует в этой области, их система может работать с текстом, и с изображениями. Но никаких научных работ Google не показывал, поэтому мы не можем с точностью судить, что у них действительно мультимодальная система. Это такой священный грааль в мире AI сейчас. Если эти системы научиться работать со всеми типами данных на входе, то чем они будут отличаться от человека?
— Как системы AI помогают создавать контент?
Во-первых я, вместе с AI, создаю сценарий для интервью. Он мне помогает создавать костяк сценария, дальше я накидываю какой-то нужной информации, особенно если не разбираюсь в теме. Во-вторых, я практически всегда с AI пишу англоязычные посты. Он либо пишет для меня их с нуля по заданной мной тематике, либо берет мой текст, коряво написанный на английском и делает из него красивый. И в этом кейсе мне вообще ничего не надо править. Он сам все прекрасно делает. Главное ему рассказать, в каком стиле делать, показать какие-то примеры того, как надо делать. Там можно файлики загружать со своим текстом, со своими постами, которые ты уже до этого писал. Задавать уровень английского, B1, B2, и формально, неформально, вот с такими настройками поигравшись, можно добиться идеального качества.
Также я иногда переозвучиваю с помощью систем типа Eleven Labs, либо HiGen, свое русскоязычное видео на английский язык. Причем HiGen умеет это делать даже с синхронизацией губ. И у меня есть пример видео на англоязычном моем канале на 40 минут, где я полностью взял русскоязычный видос и полностью переделал его через HiGen на английский язык. Там набежало 16 тысяч просмотров. Комментаторы даже не понимают, что это не я разговариваю, что это моя переозвучка с синхронизацией в ВУП.
Еще мы делаем тиктоки иногда с помощью AI-систем типа Opus Clip. Закидываешь туда длинный ролик и этот длинный ролик AI нарезается на короткие шорты, сторизы, которые уже потом можно загружать. Также я генерирую практически всю графику либо через Сhat-GPT, либо через Midjourney. Я имею ввиду графику для презентации графику, для обложек графику, для всяческих фонов все это не генерирует Chat GPT.
В программировании я использую просто десятки разнообразных инструментов. Про них у меня есть отдельные выпуски на моем канале АйТиБорода и на англоязычном канале. Это в основном GitHub Copilot, GitHub, Copilot Chat для генерации и совместной разработки вместе с AI. Это Kodium AI для тестирования. Это всяческие тестовые инструменты (которые еще не production-ready), но их тоже интересно использовать, типа AutoGPT (генерирует код с нуля). Ну, там целый зоопарк, есть разнообразных инструментов, без которых на самом деле программисты уже не могут нормально жить, поскольку эти инструменты очень сильно увеличивают перформанс.