Как Артур Кюльян собрал 800 технарей и создает ИИ для борьбы с коронавирусом
Основатель исследовательской инициативы CoronaWhy Артур Кюльян

Артур Кюльян — серийный предприниматель и исследователь искусственного интеллекта, выросший в Виннице и переехавший работать в США. Когда по инициативе правительства США был опубликован датасет из 30000 научных публикаций о коронавирусах с призывом к техническому сообществу помочь в его исследовании, Кюльян создал инициативную группу для более эффективной работы над данными. За две недели к его инициативе CoronaWhy присоединились более 800 специалистов со всей планеты. О том, как работает его инициатива, и как анализ данных может помочь в борьбе с коронавирусом, Артур рассказал Liga.Tech.

О своём бекграунде

Учился в Винницком техническом университете, защитил диплом по теме "Системы искусственного интеллекта". Работал в аутсорсе разработчиком. После того как начал понимать про продукт больше, чем типичные менеджеры, решил создавать свои продукты. Начинал с фейлов. Искал инвестиции, переехал в Киев, участвовал в стартап-акселераторах. Искал в Штатах инвесторов для одного из проектов и познакомился с американцами, с которыми потом соосновал свою венчурную студию.

Я активно продвигал ИИ и машинное обучение как один из основных векторов в развитии компании. За последние три года я приложился к 20-30 системам, которые помогают бизнесам налаживать инновации на производстве. За это время у меня было много типичных разговоров с предпринимателями, которые приходили и говорили: "I need AI, I need machine learning", но при этом ничего в этом не понимали. В итоге я упаковал эти разговоры в книжку "Robot is The Boss" — получилась инструкция для нетехнических людей из бизнеса о том, как использовать ИИ в бизнесе. Вот такой бекграунд: в последние годы я строил проекты, выталкивал их на рынок, занимался прикладной ИИ-наукой и исследовал, куда это всё движется.

Про инициативу от Белого дома

Правительства всех стран сейчас понимают, что не справляются с проблемой. Белый дом обратился к технологическому сообществу с просьбой помочь исследователям, которые традиционно работают медленно. Был собран датасет из 30 000 научных публикаций, которые относятся к COVID-19 — это исследования нового коронавируса SARS-CoV-19 и похожих коронавирусов, таких как SARS и MERS. На платформе Kaggle опубликовали список вопросов, ответы на которые надо искать в этом датасете. К примеру: каковы риск-факторы для COVID-19? Есть ли связь между курением и осложнениями?

Kaggle используют для конкурсов по анализу данных — когда есть некоторые точные цифры и нужно построить ИИ-модель, которая анализирует данные лучше, чем предыдущие попытки. К примеру, улучшить точность распознавания опухолей на рентгеновских снимках. Вокруг Kaggle собралось сообщество из сотен тысяч ИИ-программистов, и эти люди довольно успешно решают проблемы.

Когда я увидел челлендж от Белого дома, я понял, что ИИ-инженеры не смогут решить настолько абстрактно сформулированные задания. Моя гипотеза подтвердилась, когда я начал кидать это десяткам знакомых инженеров. Они не понимали, что это за датасет и что с ним вообще нужно делать. В тематических группах и на LinkedIn люди спрашивали в комментариях: "А какие будут выходные данные? Что мы вообще должны получить?". Этот разрыв между постановкой задачи и реальными специалистами надо было сокращать.

В первый день на созвоны со мной вышли 10-15 человек. Я понял, что надо заводить Slack, Trello и всё это организовывать. Второй день — 30 человек, 50 и дальше по экспоненте. Сейчас в нашем сообществе уже более 800 человек. Наши задачи — формализация проблем, самоорганизация над структурой того, что надо решить, и собственно решение этих проблем.

 

Вопросы о коронавирусе, на которые ищут ответы исследователи ИИ
Вопросы о коронавирусе, на которые ищут ответы исследователи ИИ

К примеру, одна из задач звучит так — "Что нам известно о риск-факторах COVID-19? В частности, что пишут в научной литературе о связи курения и осложнений от коронавируса?". Это даже не вопрос — просто "нам интересно, что пишут". Я-то понял, куда копать, потому что у меня был такой опыт. В прошлом году я выиграл с командой нестандартный конкурс на Kaggle — с абстрактной задачей, без конкретных цифр. Но для человека, который который каждый день создаёт ML-модели, оптимизируя числа и кривые, это слишком абстрактный и непонятный запрос. В корпоративном секторе такие задачи формализуют специальные профессионалы — бизнес-аналитики, проджект-менеджеры, VP of AI/ML.

О работе над датасетом

С самого начала было понятно, что никто не сможет разрешить 10 задач с 30 подзадачами в каждой. Мы проранжировали их по нескольким критериям: импакт, полнота данных, четкость описания проблемы, сложность проблемы с точки зрения машинного обучения и наличие существующих решений для похожих проблем, таких как нильский вирус или малярия. Так мы выделили из десяти задач четыре, над которыми сообщество решило работать дальше: как виральность зависит от географии, какие известны риск-факторы, что известно об инкубации и передаче вируса, что известно о вакцинах и лечении. Над каждым направлением работает отдельная команда.

К примеру, мы трансформировали абстрактный вопрос "Что пишут в научной литературе о риск-факторах COVID-19, в частности о курении?" в более конкретный: "Существует ли достаточно информации для доказательства того, что курение связано с повышенной заболеваемостью COVID-19"?. Даже этот небольшой шаг — превратить абстрактный запрос в конкретный, очень помог перейти к следующему шагу — найти тип ML-проблемы, которая подходит для этого вопроса. Есть разные типы ML-проблем: регрессия, кластеринг, обнаружение аномалий, классификация. Надо четко понимать, какую из этих задач здесь надо использовать.

Сейчас мы работаем над задачами, которые касаются обработки естественного языка (NLP) — мы работаем с языком в научных публикациях. Первая конкретная задача — понять, какие части публикаций относятся к определенным стадиям болезни. Вторая — классифицировать эти статьи по типам рисков (генетические, географические, демографические, связанные с окружающей средой) и в общем по вирусным заболеваниям, чтобы исследователи могли посмотреть на риск-факторы других вирусных заболеваний, похожих на коронавирус по структуре.

За последнюю неделю мы проработали полный список риск-факторов с реальными врачами и терапевтами, чтобы понять, какие из рисков их интересуют больше всего на данный момент. Этими рисками оказались возрастные заболевания, сердечно-сосудистые заболевания, курение и хронические повреждения легких.

Чётко сформулировав задачу, можно создать алгоритм NLP, который обрабатывает тысячи публикаций, находит там ключевые слова и связанные с ними понятия и таким образом находит семантическую связь между сущностями. Очень важная и основательная вещь, которую мы сделали в первые дни — улучшили существующий датасет ключевыми словами, чтобы быстрее искать ассоциации между сущностями. Это было непросто, потому что мы не медики. Есть такая система — UMLS, Unified Medical Language System. Она помогла нам улучшить датасет унифицированными названиями заболеваний, медицинских препаратов и других подобных вещей. Этот улучшенный датасет можно использовать как базу для дальнейших исследований.

Как формировалась команда

Началось всё с того, что я запостил свой призыв на LinkedIn и на Facebook. Многим людям откликнулся такой методический подход и они начали распространять мой призыв. К группе начали присоединяться специалисты. Кандидаты наук, исследователи, ИИ-инженеры из Amazon, NASA — очень много технических людей, которым это близко, но они не могут сами структурировать эти проблемы. Я понял, что я узкое место системы — я практически не спал из-за того, что надо было всё это менеджить. Тогда я начал искать нетехнических специалистов — написал статью на Medium, запустил проект на Product Hunt. Помогли интервью в популярных изданиях — Information Week, Wall Street Journal.

Звучит круто — полтысячи технических специалистов, но это очень сложно эффективно развивать. Тут очень быстро происходит рост человека внутри проекта — вчера человек что-то делал, сегодня он уже объясняет другим, как это делать, а завтра будет менеджить людей, которые менеджат людей, которые что-то делают. Иерархия, которая в корпоративной среде складывается годами, тут формируется за день.

 

Майндмап задач для участников проекта CoronaWhy
Майндмап задач для участников проекта CoronaWhy

Люди всех рас и социальных слоёв со всего мира объединились против общего врага. Они сидят дома и уже не могут смотреть Netflix — они должны как-то использовать свой мозг. Особенно те, для которых интеллектуальный труд является целью в жизни. У нас есть кандидаты наук по ядерной физике, психолингвисты. Люди, которые занимаются какими-то космическими крутыми вещами, о которых я никогда не слышал. И все эти люди резонируют — им нечем заняться, а здесь есть возможность объединиться и реально на что-то повлиять.

У нас есть люди из Amazon, Capital One, NASA, Deloitte, PwC, есть CEO Kaggle (компания, которую купил Google). Крупные компании пока не сильно нам помогают — они сами не были готовы к тому, что произошло. До того как о нас написала пресса, нам сложно было получить поддержку по облачным вычислениям от Google и Amazon. Они сейчас перегружены такими запросами. Но сейчас мы пробились сквозь шум и получили от них по $5000 на облачные вычисления. Есть отдельные люди из этих компаний, которые идут к нам и помогают что-то делать.

Базовые вычисления можно делать на самом Kaggle — платформа даёт немного вычислительных мощностей бесплатно. Более сложные вещи там могут занимать часы и недели. К примеру, переобработать и улучшить датасет займет два дня, так как он уже весит больше 20 гигабайт. Поэтому люди используют свои собственные ресурсы. Кто-то предлагает своё железо — берите GPU, пользуйтесь.

О сложностях

По нашему прогрессу мы видим, насколько неэффективна существующая система в плане разработки и менеджмента. На днях я потратил больше часа, чтобы пригласить 300 человек в календарь на созвон из-за программных лимитов. Наши основные инструменты — Slack и Trello, они удобно интегрируются с другими сервисами. Медицинские данные и ресурсы разбросаны по разным организациям, поэтому их сложно использовать техническим специалистам.

Сначала нам не хватало проджект-менеджеров, продакт-менеджеров и "решателей проблем" — людей, которые могут получать неструктурированную информацию и превращать её в осязаемые задачи для инженеров. После первых публикаций у нас начало появляться больше таких людей. Появилась другая проблема — не хватало медицинских экспертов, чтобы улучшать наше понимание того, с чем мы работаем. В задаче про вакцину обсуждаются адаптогены, типы протеинов — ML-инженеры в этом не разбираются, их нужно направлять. Эту проблему тоже решили, теперь работаем над эффективностью взаимодействия инженеров и медиков.

Сейчас главная проблема — в людях, которые могут связывать нашу группу с существующими инфраструктурами и организациями, которые могут использовать наш мощный потенциал для решения своих проблем. Большинство людей в нашем сообществе — интроверты, для них непросто написать e-mail какой-то организации. К тому же это вообще сложная задача — в компаниях таким обычно занимаются продажники и или маркетологи. Но здесь ты “продаешь” видение, решение проблем. Сейчас формируем костяк команды по связям с организациями и общественностью. Публикации в прессе сильно помогают. Люди видят — ага, про вас пишут, значит это что-то стоящее.

Если бы такую команду собирали в коммерческой среде, это стоило бы сотни миллионов долларов. Чтобы собрать более 800 специалистов, нужны годы работы. Плюс мотивация, которую не купишь за деньги.

Мне сложно подобрать слово, чтобы описать проект. Люди пишут и спрашивают меня — а какое видение всего этого? Это только конкурс на Kaggle или мы в общем помогаем миру и медицинскому сообществу? Мы решили, что это не только Kaggle — он дал нам стартовую структуру и толчок к самоорганизации. На самом деле это что-то большее. Это не компания, не организация, это глобальная распределенная удаленная коллаборация людей, готовых решать сложные проблемы. Возможно, позже у нас появится слово для этого. 

Наш подход — взять массив публикаций, завернуть его в датасет, улучшить метаданными, найти подходящий алгоритм — можно использовать для поиска лекарства от определенного типа рака, диабета, ВИЧ и других вирусов.

Наше общество долго приучали к тому, что общий враг, общая угроза — где то там, далеко, нас они не коснутся. Коронавирус чётко показал, что они здесь, они могут уничтожить наше общество и экономику, и тем самым вернул нас в реальность. Общих врагов много — это политические режимы, биологические и социальные феномены. Коллаборацию и кооперацию можно использовать для решения этих проблем. Я надеюсь, что наша структура станет мотивацией для других групп и структур. Мы не Google, чтобы пытаться решить все проблемы. Я вижу нас как успешный кейс, доказывающий, что это можно делать при определенных условиях.

О перспективах ИИ-индустрии

Индустрия ИИ уперлась в ресурсоемкие вычисления. Самый популярный подход — глубокое обучение — работает благодаря тому, что у нас сильно увеличился вычислительный ресурс. Это позволяет создавать большие и сложные системы, но требует огромных мощностей. Я вижу большое будущее в алгоритмах, которые более абстрактны, не заточены под узкие задачи и понимают причинно-следственные связи.

К сожалению, мало людей смотрят в эту сторону. Есть свои преимущества в том, чтобы заниматься глубоким обучением и решать проблемы с его помощью. Это круто, я и сам этим занимаюсь в реальных компаниях. Но в плане исследований ИИ мы очень далеки от прорывов.

Надо отходить от попыток статистического представления данных. Сейчас мы просто скармливаем много данных модели, которая пытается вычленить из этого статистические паттерны. Понимания того, что там в этих данных, у неё вообще нет.

У людей есть prior knowledge — некое сформулированное эволюцией базовое понимание мира. Когда мы рождаемся, мы довольно быстро понимаем, что такое симметрия, что предметы отличаются друг от друга, мы понимаем базовые вещи из физики, как двигаются предметы и живые существа. Нам надо научиться моделировать этот prior knowledge и строить системы, которые на его основании сами смогут строить решения для разных задач. Чтобы построить ИИ, который будет действительно полезным для решения разных задач, он должен сам разрабатывать под них навыки и алгоритмы на основе prior knowledge и опыта, то есть данных об этом типе задач.