Дорисованная реальность: каким путем пойдет мобильная фотография
В кулуарах Всемирного мобильного конгресса (Mobile World Congress, MWC), который прошёл недавно в Барселоне, имел место прелюбопытный разговор. Моим собеседником был Кевин Чжоу, директор подразделения Huawei Consumer Business Group в Украине, главный по смартфонам и другим потребительским устройствам ведущего китайского производителя всевозможного телекоммуникационного оборудования.
Поводом для разговора стали несколько громких анонсов, как говорится, "взорвавших сеть". В частности, во время Конгресса стало известно о сразу двух производителях, которые ухитрились реализовать в смартфонах доселе невиданное "честное" 10-ти кратное увеличение фотокамеры. Честное в том смысле, что речь идёт об оптическом увеличении, а не цифровом масштабировании.
По ссылкам можно посмотреть на тестовые снимки, сделанные с помощью фотомодулей Oppo и Huawei. Причём если Oppo только лишь предполагает использовать эти возможности в своих продуктах, в случае Huawei речь идёт о серийном устройстве, которое будет официально представлено в конце этого месяца.
Постобработка - наше все
Разговор с г-ном Чжоу вертелся вокруг реальных возможностей камер современных смартфонов и перспективах их дальнейшего развития. Как ни впечатляет появление у телефонов возможностей подзорной трубы или карманного телескопа, важно различать пиар и реальную жизнь.
Самым слабым местом фотокамер на смартфонах принято считать их физические размеры. Размер имеет значение - хорошие снимки требуют большой оптики. Такие показатели объектива как светосила или фокусное расстояние напрямую связаны с его габаритами. Они же ограничивают и размер светочувствительной матрицы, играющей главную роль в цифровой фотовидеотехнике.
Именно поэтому на протяжении долгих лет было принято считать, что никогда, никогда, никогда смартфоны не заменят полноразмерные фотовидеокамеры. Каким образом производители смартфонов предполагают обходить эти фундаментальные ограничения?
Подход, который солидарно избрала индустрия, нельзя не признать спорным, но эффективным. Или, наоборот, весьма эффективным, но достаточно спорным. Во главу угла ставится постобработка, т.е. совокупность операций, которые происходят с полученным изображением. А происходят уже сейчас и будут происходить в ближайшем будущем воистину удивительные вещи.
Если выражаться совсем просто, смартфоны начинают на постоянной основе, без дополнительных указаний своих владельцев ретушировать сделанные ими снимки. Ретушировать до такой степени агрессивно, что совсем скоро можно будет использовать слово "дорисовывать".
Для постобработки уже сейчас применяется целое семейство технологий, которые производители маркетинга ради обозначают как ArtificialIntelligence, AI. Эти буковки с прошлого года нещадно лепят на свои продукты производители смартфонов и первого, и второго, и всех остальных эшелонов. Искусственный интеллект, да-да. Хайп, хайп, хайп. Что именно понимается под искусственным интеллектов в данном контексте?
Во-первых, компании-производители инвестируют очень много средств в изучение закономерностей человеческого восприятия, нейрофизиологию зрения и смежные направления. Результаты этих исследований можно оценить, например, с помощью довольно популярного смартфона HonorPlay, который мне довелось протестировать.
При внимательном изучении полученных с его помощью фотографий были заметны артефакты, пикселизация и другие искажения, характерные для камер среднего ценового уровня. Однако и на экране смартфона, и в ПК снимки в целом производили весьма приятное впечатление. Имел место своего рода разрыва между объективными характеристиками изображения и его субъективным восприятием. За этот фокус как раз и отвечает "искусственный интеллект" на борту смартфона, для чего там даже предусмотрено отдельно ядро в центральном процессоре.
По сути, речь идёт об использовании разного рода фильтров к изображениям, только без уведомления пользователя и под управлением изощрённых алгоритмов машинного обучения. Пока что этот режим можно отключить, но не за горами время, когда он станет базовым для смартфонов.
Во-вторых, технологии машинного обучения используются, чтобы исправить дефекты картинки, вызванные несовершенством оптики крохотных по своим размерам камер смартфонов. Как это выглядит, можно посмотреть на примере материалов проекта BigJpg, который предлагает решения для гладкого увеличения изображений. Возникающие при увеличении "лесенку" и шумы устраняют с помощью именно нейронных сетей. В данном случае нейронные сети берут на себя функцию опытного и аккуратного ретушёра, который осуществляет над изображением вполне очевидные операции.
Однако это всё цветочки, по-настоящему забористые ягоды ждут нас впереди. Уже сейчас с помощью нейронных сетей и машинного обучения возможно делать действительно впечатляющие трюки. Там, где в силу тех или иных причин картинка деградировала сверх всякой меры, превратившись в мешанину пикселей, алгоритмы AI могут дорисовывать картинку.
При этом во главу угла ставятся ровно то же соображения, что и в предыдущих случаях - изображение должно быть субъективно приятным и предсказуемым, не вызывающим дискомфорта. А главным источником дискомфорта, как показывают многочисленные исследования, являются неожиданные, нехарактерные образы, вызывающие своеобразное когнитивное напряжение.
Вот как это выглядит на практике:
Исходное изображение (колонка Original Image) подвергли намеренной деградации и предложили нейронной сети в качестве исходного материала (Input). Основываясь на коллекции аналогичных изображений, сеть рисует усреднённых котиков и собачек, отталкиваясь от имеющихся в её распоряжении эскизов. Intermediate демонстрирует промежуточный результат, а Output - конечный.
Однако и это далеко не предел. Ниже приведён пример ещё более радикального улучшения, когда нейронная сеть попросту дорисовывает утерянные фрагменты изображения, в буквальном смысле фантазируя их содержание.
В случае человеческих лиц в ход идут закономерности, полученные на очень больших, в миллионы образов, выборках. В результате лишённые какого-либо человеческого подобия наборы пикселей превращаются во вполне узнаваемые лица.
Очевидно, что полученные изображения заметно отличаются от исходных. Чуда не произошло, конечный результат является достоверным исключительно в статистическом смысле. Не наиболее достоверным, а наиболее вероятным. Однако если достоверность не важна, результат в целом более чем пристойный.
То, что происходит сейчас с фотографией можно без особого преувеличения назвать революцией. Долгие годы специалисты по обработке изображений высмеивали сценаристов бесчисленных детективов и научно-фантастических фильмов за один и тот же ляп. В одной из статей на популярном гиковском ресурсе Хабрахабр эксперт в этой области приводит кучу примеров того, как самые разные люди из самых разных стран просят от него совершить один и тот же фокус. Имея на руках фотовидеосъёмку с недостаточным разрешением или качеством, они хотят увидеть недостающие детали, лицо подозреваемого или номер автомашины, например.
Наблюдая много раз на теле- и киноэкранах как суровые профессионалы одним нажатием таинственной кнопки решают такую задачу, люди умоляют, просят и даже требуют сделать для них то же самое. Им невдомёк, что деградация изображения - это необратимый процесс. Невозможно на основе нескольких пикселей воссоздать лицо или текст, как бы этого не хотелось. Если, конечно, речь не идёт о мире искусства, где возможно всё.
Добро пожаловать в пустыню реальности
И вот выясняется, что профессионалы зря хихикали. Приведённый на картинке фокус не просто возможен, его уже начинают демонстрировать за деньги в промышленных масштабах. Просто содержание "восстановленной" картинки может быть каким угодно, а так всё будет разборчиво и даже красиво. При наличии достаточных вычислительных мощностей не проблема генерировать картинку с любым разрешением.
Вычислительные мощности и эффективные алгоритмы превращаются в ключевой элемент фотографического модуля смартфона. Одним из лидеров в части "искусственного интеллекта" является Google Inc. Компания располагает наибольшими массивами визуальных материалов на любой вкус, намного больше любого из конкурентов. Между тем объём и разнообразие исходных данных очень важны для эффективного обучения нейронных сетей. Благодаря эффективности своих аппаратных и программных решений Google, например, в состоянии реализовать популярный эффект "боке" с помощью одной-единственной камеры.
Оговорюсь ещё раз - в случае технологий "дорисовывания" фотоснимков пока что речь идёт об исследованиях и опытных разработках. В серийные устройства подобные возможности пока ещё не проникли. Препятствием являются не столько технические проблемы, которые успешно решаются, сколько вопросы юридического, этического и тому подобного характера.
Например, каков статус фотографии, полученной с использованием такого рода методов обработки? Можно ли считать документальным свидетельством изображение, значительная часть которого сгенерирована случайным, по сути, образом? Каким образом и можно ли вообще реконструировать исходную картинку или нужно расслабиться и воспринимать её "как есть"?
По словам г-на Чжоу в Huawei осознают эти проблемы. Последние годы компания инвестирует значительные средства в исследования, связанные с этическими, правовыми и другими социальными аспектами технологических решений. По итогам 2018 года компания стала пятой по объёму инвестиций в R&D, единственной из китайских компаний в Топ-50 с цифрой в 13.1 млрд. долларов. Это больше, чем у Intel или Apple.
Вокруг нас на глазах формируется поразительный новый мир. Мы ещё даже не успели вполне свыкнуться с такими феноменами, как виртуальная и дополненная реальности, а нас уже ждёт новая реальность - дорисованная.
К сожалению, культурные нормы, тем более регулирование хронически отстают от стремительного развития технологий. Единственным источником представлений о новых возможностях оказывается фантастика. Так что смотреть фантастические сериалы становится просто обязательным занятием культурного человека.
Поездка автора на MWC состоялась при поддержке компании Huawei
Хотите стать колумнистом LIGA.net - пишите нам на почту. Но сначала, пожалуйста, ознакомьтесь с нашими требованиями к колонкам.