Фото по коду. Почему камеры смартфонов в технологическом тупике
Что находится внутри камеры? Линза, затвор, светочувствительная поверхность и, конечно, набор сложнейших алгоритмов. Физические элементы совершенствуются постепенно. Но Google, Samsung и Apple вкладывают деньги и демонстрируют улучшения чисто программного обеспечения. Компьютерная фотография — вот где сейчас разворачивается активная конкуренция.
Причина подобных перемен крайне простые: камеры не могут перейти на качественно новый уровень съемки, во всяком случае, без кардинальных изменений принципов их работы. Именно поэтому производители смартфонов уперлись в стену в сфере фотографии, и сейчас они вынуждены перепрыгивать ее.
Редакция публикует перевод статьи писателя и фотографа Девида Колдевея на TechCrunch о том, какое будущее у фотографии и почему производители смартфонов не могут улучшить камеру.
Не хватает бочек
Сенсоры в наших смартфонах воистину удивительны. Компании вроде Sony, OmniVision, Samsung и другие проделали огромную работу по разработке и производству крохотных универсальных сенсорных чипов. Для фотографа, который наблюдает эволюцию цифровой фотографии с самого начала, уровень качества этих микроскопических сенсоров кажется потрясающим.
Но закон Мура (количество транзисторов, размещенных на кристалле интегральной схемы, увеличивается в два раза каждые 24 месяца) не работает для этих сенсоров. Вернее, закон Мура сейчас действует в квантовых пределах с размерами меньше 10 нанометров, но сенсоры достигли своих физических пределов намного раньше. Давайте представим, что свет, который падает на сенсоры, — это капли дождя, которые падают на бочки. Вы можете поставить бочки большего диаметра, но их будет меньше. Можете поставить бочки меньшего размера, но они не смогут поймать столько же капель. Можно расположить их квадратом, поставить в ряд или придать им любую другую форму, но количество капель ограничено, и никакие перестановки бочек это не изменят.
Конечно, сенсоры улучшаются, но слишком медленно, чтобы покупатели приобретали новые смартфоны каждый год — просто представьте, что вам нужно продать телефон, у которого камера только на 3% лучше. Но производители смартфонов часто используют аналогичные или схожие конфигурации камер, поэтому часто делятся улучшениями — вроде переключения на заднюю подсветку, которое появилось не так давно. В разработке сенсоров нет явных лидеров.
Возможно, есть способы улучшить линзы? Вряд ли. Линзы уже приблизились к такому уровню совершенства, что их будет крайне сложно улучшить еще больше, особенно при таких малых размерах. Сказать, что в конструкции камеры смартфона ограничено пространство, — это явное преуменьшение. Там сложно найти даже лишний микрон. Можно было бы несколько улучшить их с помощью увеличения количества света, которое проходит через них, и уменьшения искажений, но эти способы уже по максимуму раскрыты.
Единственный способ собирать больше света — это увеличить размер линз одним из следующих способов:
установить элементы, выступающие за пределы корпуса;
заместить ими основные системные элементы внутри корпуса;
увеличить толщину смартфона.
Как вы думаете, какой способ выбрала бы компания Apple?
Оглядываясь назад, было неизбежным, что Apple (как и Samsung, Huawei и остальные) выберут четвертый вариант: ничего из вышеперечисленного. Ведь если вы не можете получить больше света, то нужно всего лишь лучше использовать тот свет, который у вас есть.
Разве не вся фотография компьютерная?
Самое распространенное определение компьютерной фотографии включает абсолютно любое цифровое изображение. Даже самая простая цифровая камера требует вычислений, чтобы превратить свет, который падает на сенсор, в изображение. И производители камер используют разные способы, которые позволяют это сделать: разные методы обработки JPEG, RAW-форматов и цветообразования.
Длительное время не было интересных разработок в дополнение к базовым элементам. Причина банальная — нехватка вычислительной мощности. Конечно, тогда были фильтры и другие хитрости, чтобы улучшить контраст и цвет. Но по сути это мизер в сравнении с полной автоматической настройкой.
Первыми элементами действительно компьютерной фотографии, вероятно, стала возможность идентификации и отслеживания объектов для автоматического фокуса. Умение отслеживать лица и глаза упростила фокусировку на людях при комплексном освещении или разных позах. А возможность отслеживания объектов сделала проще динамичную фотографию, потому что в изменения системы позволяли лучше захватывать движущуюся в кадре цель.
Были также и ранние попытки извлечения метаданных из изображения и активного их использования, чтобы повысить качество изображения или для отдельных действий, которые используются в этом процессе.
В цифровых зеркальных фотоаппаратах точность и гибкость автофокуса — это главные особенности. Поэтому они стали популярными уже с момента появления. Но несмотря на подобные уловки, эти «серьезные» камеры используют компьютерную обработку очень даже активно. Более быстрые сенсоры изображения означают, что сенсор быстрее разгружается и разгоняется, а дополнительные циклы предназначены для сохранения цвета и детализации и тому подобного.
Зеркальные фотокамеры не использовались для живых трансляций или дополненной реальности. И до недавнего времени это же относилось и к камерам на смартфонах, которые были предназначены только для фотосъемки — совсем не похоже на современные многофункциональные медиа-инструменты, которыми мы знаем их сейчас.
Ограничения традиционной фотосъемки
Если не учитывать эксперименты с отдельными элементами, камеры для смартфонов мало изменились. Их размеры должны быть не более нескольких миллиметров, что ограничивает их оптику всего до нескольких конфигураций.
Размер сенсора тоже ограничен. Зеркальные камеры могут использовать сенсор APS-C размером 23 на 15 мм, что соответствует площади в 345 мм2. А сенсор в iPhone XS, который по видимости самый крупный и продвинутый на современном рынке, имеет размер всего лишь 7 на 5,8 мм, что дает площадь 40,6 квадратных миллиметров.
Грубо говоря, такой сенсор собирает почти на порядок меньше света, чем у «нормальной» камеры, но от него ожидают практически тех же показателей передачи изображения, детализации, цветовой гаммы и примерно того же количества мегапикселей. На первый взгляд, это неразрешимая проблема.
Традиционные улучшения помогают — оптическая и электронная стабилизация, к примеру, позволяет дольше выдерживать фото без размытия, собирая больше света. Но от этих улучшений по сути требуют превратить свинец в золото.
К счастью, как я уже упоминал, все находятся в одной лодке. Пока существуют фундаментальные ограничения, Apple или Samsung не смогут придумать камеру заново или создать такую сумасшедшую конфигурацию линз, которая сразу даст им огромный гандикап в соревновании. Все они вынуждены использовать одни и те же основы.
Поэтому вся борьба за первенство состоит из тех элементов, которые компании создают поверх этих основ.
Изображение как поток
Основная суть компьютерной фотографии находится в том, что изображение с цифровой камеры не является мгновенным снимком, каким его видит большинство обывателей. В обычных фотоаппаратах затвор открывается и закрывается, обнажая светочувствительную среду всего на долю секунды. Цифровые камеры работают не так.
Сенсор фотокамеры постоянно бомбардируется светом — дождь постоянно падает на поле бочек, если возвращаться к нашей метафоре. Но пока вы не сделали снимок, у бочек нет доньев и они не наполняются. Но дождь непрерывно идет в любом случае.
Чтобы сделать снимок, система устанавливает точку, с которой она начинает считать капли, которые символизируют кванты света, попадающие на сенсор. Затем она устанавливает конечную точку. Для целей традиционной фотографии это позволяет по сути не учитывать скорость закрытия затвора, который не нужен для крохотных сенсоров.
Почему же не вести запись постоянно? В теории это возможно, но это очень быстро посадит батарею и перегреет устройство. К счастью, за последние несколько лет процессоры стали достаточно эффективными, чтобы при открытом приложении для съемки сохранять определенный отрезок этого потока — ограниченное разрешение, к примеру, улавливает последние 60 кадров. Конечно, заряд батареи это немного уменьшит, но это того стоит.
Доступ к потоку позволяет фотокамере делать самые разные вещи. Он добавляет контекст.
Контекст — это сборное понятие, которое может означать многое. Это могут быть фотографические элементы вроде вспышки и определения дистанции к субъекту. Но это также могут быть движения, объекты, захват цели.
Простым примером контекста является так называемый HDR или изображение с высоким динамическим диапазоном. Техника использует несколько кадров, сделанных подряд с разным уровнем выдержки, чтобы лучше поймать зоны изображения, которые могут быть недодержанными или передержанными при единичной выдержке. Контекст в этом случае — это понимание, какие области какими являются и как разумно объединить полученные изображения в одно.
Это можно осуществить с помощью брекетинга или вилки выдержки, старой фотографической техники. Но этого можно добиться мгновенно и без дополнительных настроек, если поток изображения используется для различных уровней выдержки постоянно. Именно этим сейчас занимаются Google и Apple.
Более сложным, конечно, является «портретный режим» и искусственное размытие фона, которое сегодня встречается на фото все чаще. Контекст здесь — это не только расстояние до лица, но и понимание, какие части изображения являются цельным объектом, чтобы сделать контуры этого объекта более четкими. Этого можно достичь с помощью движения объекта в потоке, разделения стерео на дублированных камерах, а также обучая машину идентифицировать и контурировать человеческие формы.
Эти техники являются возможными только потому, что:
Необходимые кадры сделаны в первую очередь с помощью потока, и только потом роль играет сам сенсор и оперативная память устройства.
Для проведения этих расчетов компании разрабатывают высокоэффективные алгоритмы, которые длительное время обучаются на огромных массивах данных.
Эти техники не слишком простые в применении, но важно понимать, что одна компания может использовать их гораздо лучше другой. И их качество полностью зависит от разработки программного обеспечения и художественных приемов, которые с ним связаны.
DxOMark провел сравнение некоторых ранних систем искусственного размытия. Результаты, правда, были не слишком удовлетворительными. Вопрос стоял даже не в том, что выглядело лучше, а о том, было ли использование эффекта удачным или нет. Самого существования компьютерной фотографии в годы ее появления было достаточно, чтобы удивлять людей. Как собака ходит на задних лапах, мы просто удивлялись, что такое вообще возможно.
Но Apple вырвались вперед со штукой, которые некоторые могут назвать нелепым и чрезмерно сложным решением проблемы размытого фона. Система не только учится повторять эффект — она использует компьютерные мощности, которые имеет в своем распоряжении, чтобы создать виртуальную физическую модель оптического явления, который порождает этот эффект. Это как разница между анимацией попрыгунчика и симуляции реалистичной гравитации и физики эластичных материалов.
Зачем было идти на такие меры? Потому что Apple знает то, что ясно и другим: глупо переживать за ограничения вычислительных возможностей. Есть границы, которые показывают, как хорошо можно воссоздать картинку, если вы делаете снимки с помощью фильтра размытия по Гауссу. Но границы стираются, если вы воссоздаете экспозицию на уровне фотонов света.
Точно так же идея объединения 5, 10 или 100 снимков в одно HDR-изображение выглядит абсурдной, но в реальности все наоборот. Чем больше информации собирает девайс, тем лучше для результатов фотографии. Если стоимость этой компьютерной акробатики незначительна, а позитивные результаты вполне измеримы, то почему наши устройства не должны делать эти вычисления? Через несколько лет они будут считаться вполне обычными.
Если результатом является улучшение продукта, то вычислительные мощности и инженерные возможности используются с большим успехом. Leica или Canon могут потратить миллионы, чтобы повысить эффективность стабилизационной оптической системы для объектива за 2000$, а Apple и другие вкладывают деньги туда, где они принесут наибольшую ценность: не в стекло, а в кремний.
Раздвоение изображения
Я описал еще один тренд, который может составить конкуренцию с компьютерной фотографией. Это использование нескольких отдельных камер.
Эта техника не позволяет сенсору получить больше света — это было бы слишком дорого и сложно в технической реализации. Хотя даже это не гарантировало бы его нормальную работу. Но если освободить немного пространства вдоль корпуса (а не вглубь, что мы ранее признали непрактичным), то можно установить отдельную камеру сразу возле первой, которая будет снимать фото, практически идендичтые с теми, которые делает первая.
И сейчас если вы хотите переснять «Мир Уэйна» на уровне еле уловимых изменений (камера один, камера два… камера один, камера два), то это все, что вам нужно. Но по сути никому не нужны два одинаковых изображения с разницей съемки с дюйм.
Эти две камеры работают либо независимо (для широкоугольного эффекта или зума), либо одна дополняет вторую, формируя единую систему с несколькими входами информации.
Дело в том, что использование данных с одной камеры, чтобы увеличить количество информации для другой — это, как вы уже догадались, очень затратно в смысле вычислительных ресурсов. Это схоже с дублированием HDR-кадров, только намного сложнее, ведь изображения сняты с помощью разных линз и сенсоров. Процесс можно оптимизировать, но это не так уж и просто.
Добавление еще одной камеры действительно является способом улучшить физические параметры фото, но этот метод существует только благодаря возможностям компьютерной фотографии. И именно от качества компьютерной обработки будет зависеть качество готовой фотографии. Камера Light с ее 16 сенсорами и линзами — это пример амбициозной попытки, которая просто не способна делать фотографии более высокого качества, потому что использовала уже существующие технологии сбора и рассеивания света.
Свет и код
Будущее фотографии зависит не от оптики, а от компьютерных возможностей. Это огромное изменение в состоявшемся порядке вещей, и его должны принять все компании, которые создают или используют камеры. Это уже находит отражение в традиционных зеркальных фотокамерах (сейчас активно ведутся разработки беззеркальных систем), смартфонах, встраиваемых устройствах и любых других девайсах, которые собирают свет, чтобы превратить его в изображение.
Это означает, что камеры, о которых мы слышим, будут практически такими же, как и в прошлом году. Не изменится количество мегапикселей, диапазон ISO, f-числа и так далее. Это нормально. С некоторыми исключениями у нас уже есть лучшее, на что можно рассчитывать. Стекло не станет еще чище, а наше зрение не будет острее. И путь, которым свет проходит через устройства и наши глаза, тоже не изменится.
Но то, что эти устройства делают с этим светом, изменяется колоссальными темпами. Об этих изменениях много говорят с больших сцен, но по большей мере это псевдонаучные россказни. Это тоже нормально. В прошлом столетии мы экспериментировали с разными составляющими фотокамеры, а сегодня мы перешли на новый уровень, который не зависит от физики. И этот уровень крайне важен для качества фотографий и развития отрасли в целом.
Статья переведена при содействии информационного партнера LIGA.net - онлайн-школы английского языка EnglishDom