Энтузиаст машинного обучения Денис Ширяев улучшает кадры исторических хроник с помощью нейросетей. Прибытие поезда, снятое братьями Люмьер, жизнь европейских столиц начала века, луноход Apollo и кадры викторианской Англии – осовремененные видео Ширяева набирают миллионы просмотров. Со временем эксперимент перерос в настоящий бизнес – Денис основал компанию neural.love, которая представляет услуги по улучшению видео.

Редакция Liga.Tech пообщалась с Денисом Ширяевым, чтобы узнать, как нейросети улучшают видео, почему это не нравится историкам и сколько на этом можно заработать.

Расскажи, как именно нейросети позволяют тебе улучшать старые видео. Как работает колоризация, апскейл и повышение FPS? На каких данных обучались алгоритмы и как они меняют оригинальные кадры?

Мы используем пять разных нейросетей, при этом у некоторых из них под капотом другие нейросети, так всего их около десяти. Нейросеть для колоризации изображения обучена на фотографиях. Она работает не идеально — она лишь предполагает, каким может быть цвет объекта в кадре, исходя из тех фото, на которых ее обучили.

Вторая нейросеть делает апскейл. Мы используем модифицированную нейросеть ESRGAN. Она обучается на парах обычных фотографий, где одно изображение — маленькое, зашумленное, размытое, а второе — в хорошем разрешении и качестве. Это улучшение тоже нельзя назвать исторически аккуратным, так как нейросеть дорисовывает пиксели, которых никогда не существовало. Визуально это красиво, но гарантировать, что, например, спицы у машины выглядели именно так, мы не можем. 

 

Есть нейросеть, которая повышает количество кадров в секунду (у нее внутри еще четыре нейросети). Она строит карту глубины сцены, анализирует разницу между двумя соседними кадрами и пытается понять, как двигались объекты. Затем дорисовывает фон с учетом глубины сцены, так чтобы это выглядело натурально. Вообще так можно сделать слоу-мо версию любого видео или видео в 120 FPS. Чем лучше исходное качество, тем лучше будет результат.

Отдельная нейросеть, обучена на множестве фото с Flickr, улучшает лица. Она анализирует изображение, детектит на нем лицо и генерирует в хорошем разрешении сегменты лица, которых там не хватает. Так как люди при просмотре фокусируются именно на лицах, получается довольно эффектно. 

С какими сложностями сталкивался при обработке видео? Какие кадры заставляли алгоритмы работать некорректно? 

Очень много сложностей. Многие ретро-кадры были сняты в оригинале в 14-15 FPS. На ютуб их заливают, замедляя до 30 FPS, чтобы картинка не дергалась. Сделать из таких кадров 60 FPS нереально. Наши разработчики написали алгоритм, который определяет, есть ли в видео дублирующие кадры, какой его настоящий FPS.

Вторая проблема — интерлейсинг, черезстрочная развертка, при которой на изображении бывает искажение в виде "гребенки". Это встречается и в более современных видео. Еще одна проблема — шумы. Их мы тоже убираем из кадра, но без машинного обучения, просто математическим алгоритмом. Мерцание, когда соседние кадры сильно отличаются по яркости – все эти нюансы усложняют работу с видео.

К примеру, возьмем старое видео, снятое в оригинале в 14 FPS. Из-за ограничений технологии такое видео не может фиксировать быстрые движения. Поэтому, к примеру, у движущейся лошади на видео будет смазана нога. Нейросеть, добавляющая кадры, не сможет дорисовать эту ногу — в обучающем датасете не было таких данных. Поэтому на каких-то кадрах эта нога просто исчезает, а затем вновь появляется.

Колоризация — тоже сложный процесс, который нельзя контролировать. Алгоритм не всегда правильно красит объекты, особенно флаги. Может принять воду за газон. Это большое пространство для работы, будем в следующем году над всем этим работать.

Что с авторскими правами? Нет ли проблемы с использованием оригинальных кадров? Защищены ли твои видео копирайтом или их можно свободно перезаливать?

Законы насчет авторских прав работают непредсказуемо. Мне приходили жалобы на авторские права на видео, снятое сто лет назад, YouTube его заблокировал (правда, после апелляции все вернули). А вот видео, снятое в июне 1945-го, не разблокировали после жалобы. Мне это, конечно, не нравится. Я считаю, что история не должна кому-нибудь принадлежать. У нас не так много кадров тех лет. Людям интересно их смотреть. Я на них не зарабатываю, в них нет рекламы, начал делать просто, потому что мне нравятся эксперименты.

Мне часто пишут с просьбой использовать мои видео. Американский юрист, с которым я консультировался, говорит, что мои видео подпадают под защиту авторским правом. Там есть часть моего интеллектуального труда: апскейл, колоризация, добавление половины кадров, которых не было в оригинале. То есть это как бы ремикс оригинала. Я не продаю эти видео, разрешаю использовать их бесплатно.

Если кто-то пожалуется, это будет сложный кейс — суду придется разобраться, как все эти алгоритмы работают. Похожая ситуация с колоризацией старых фото и фильмов — художник, который раскрасил фото, считается обладателем прав на него.

Как правильно воспринимать результаты работы алгоритма? Ведь если быть точным, то он дорисовывает кадры, а не восстанавливает исторически достоверное изображение.

Как развлечение! Через 20 лет алгоритмы станут совершеннее, и те же ретро-видео из Нью-Йорка после улучшения будут выглядеть так, будто их пересняли.

Видео у меня на канале содержат визуальные данные, которых не было в оригинале, особенно кадры с колоризацией. Это не исторически верные кадры, я везде об этом пишу — в описании, в самом видео. Это не реставрация, а улучшение. Реставрация чтит оригинал. Когда ты улучшаешь видео — его можно и покрасить, и добавить что-то для лучшего восприятия. Некоторым историкам это не нравится. Например, в статье на Wired один преподаватель истории критиковал такой подход к хроникам. Ему пришлось объяснять своим студентам, что в те времена не было цветной съемки.

Я всегда напоминаю зрителям — оригиналы нужно чтить и сохранять для будущих улучшений. Историческая достоверность важна, архивы важны, а это все классные игрушки.

Расскажи о коммерческом применении алгоритмов. Кто обращается к вам за услугами? О каких порядках сумм идет речь?

К нам обращаются студии со всего мира, в основном американские. Рынок улучшения видео только зарождается, но мы уже стали на нем заметным игроком благодаря виральности наших видео. Многие компании делают что-то одно, например апскейл, мы же можем предложить широкий пакет улучшений: апскейл, FPS, снижение шума, детализация лиц. За все вместе цена получается 200 евро за минуту видео, для видео от 40 минут стоимость минуты снижается.

Спрос высокий — мы обрабатываем не только исторические хроники, но и видео, снятое на VHS, в общем, все, что снято в прошлом веке. Наша задача — дать людям возможность оживить их воспоминания. Думаю, через несколько лет доработаем это до такого уровня качества и стоимости, что это сможет позволить себе любой желающий. Наш стартап прибылен, мы зарабатываем с первой недели своей работы.

Какие еще направления в обработке изображений нейросетями кажутся тебе самыми интересными и перспективными сейчас?

Это возможность улучшать плохие видео, синтезируя детали, которых не было в оригинале. К примеру, нейросеть распознала деревья и дорисовала листья в высоком разрешении. Так ли важна документальная достоверность, если человек просто хочет вспомнить, как он ездил на море в 1998 году? Мы и сами приукрашиваем свои воспоминания, когда рассказываем о том, что было давно. Здесь похожая ситуация.

Я думаю, 8K — это самое высокое разрешение, которое появится в YouTube. Больше не имеет смысла. Не только потому, что мало экранов с таким разрешением, но и потому что с точки зрения трафика проще и дешевле делать апскейл на ходу. Я думаю, на протяжении десяти лет алгоритмы улучшатся, мощности станут еще более доступными и апскейл фото и видео станет просто частью нашей жизни. К примеру, YouTube будет растягивать 1080 в 4К. Нет смысла хранить фото и видео в 4К на смартфоне, если можно тратить меньше места, просто улучшая видео при воспроизведении.

Еще одно интересное направление — технология space odometry, когда по изображению с одной камеры строится 3D-сцена пространства. Я думаю, скоро появится возможность делать это массово, к примеру, загрузить свое домашнее видео с VHS и увидеть свою квартиру в 3D. Камера, снимая определенные объекты, захватывает много всего. Если есть ролик, который заснял достаточно углов обзора, уже сейчас можно математически построить карту пространства. Это уже сейчас делают камеры машин с автопилотом, например Tesla. Пока это промышленное применение технологии, но я думаю, что на протяжении десяти лет она станет доступной для масс, чтобы каждый смог оживить свои воспоминания.