Ученые научили искусственный интеллект создавать видео прямо из мозга людей
Согласно новому исследованию, ученые использовали генеративный ИИ для реконструкции высококачественного видео по активности мозга. Об этом говорится в статье, опубликованной в arXiv.
Исследователи Цзясин Цин, Цзяо Чэн и Хуан Хелен Чжоу из Национального университета Сингапура и Китайского университета Гонконга использовали данные фМРТ и модель искусственного интеллекта Stable Diffusion для создания модели под названием MinD-Video, генерирующей видео по показаниям мозга.
Демонстрация на источнике демонстрирует параллель между видео, показанным испытуемым, и видео, сгенерированным искусственным интеллектом, созданным на основе их мозговой активности. Различия между двумя видео незначительны и в основном содержат похожие сюжеты и цветовую палитру.
Видео, опубликованные исследователями, показывают оригинальное видео лошадей в поле, а затем реконструированное видео с более ярко окрашенной версией лошадей. На другом видео автомобиль едет по лесу, а реконструированное видео показывает человека, который едет по извилистой дороге, от первого лица. Исследователи установили, что реконструированные видео были "качественными", по определению движений и динамике сцены. Они также сообщили, что точность видео составляет 85%, что является улучшением по сравнению с предыдущими подходами.
В частности, они отметили, что эти результаты осветили три основных вывода. Один из них – доминирование зрительной коры, свидетельствующее о том, что эта часть мозга является основным компонентом зрительного восприятия. Второй – это то, что кодер фМРТ работает по иерархическому принципу, который начинается со структурной информации, а затем переходит к более абстрактным и визуальным признакам на более глубоких уровнях. Наконец авторы обнаружили, что кодер фМРТ развивался на каждом этапе обучения, демонстрируя свою способность воспринимать более нюансированную информацию по мере того, как он продолжает обучение.