Содержание:
  1. ПРЕДЫСТОРИЯ
  2. СИНГУЛЯРНОЕ БУДУЩЕЕ
  3. РЫНОК ТЕКСТОВОГО АНАЛИЗА
  4. ДЕНЬГИ И ГЛОБАЛЬНЫЕ КОНКУРЕНТЫ
  5. КОНКУРЕНЦИЯ ЗА ЛЮДЕЙ
  6. И ОБ ОЧЕНЬ АКТУАЛЬНОМ

Google мыслит океанами, а не лагунами. Он просто не будет заниматься чем-то узким. Так считает президент группы компаний ЛІГА Сергей Бондаренко. Он - один из фаундеров ЛІГА:ЗАКОН и Ligamedia. А сейчас увлечен развитием нового перспективного направления - обработкой текстов на естественном языке на основе искусственного интеллекта и машинного обучения под общим брендом Semantrum. 

На поверхности Semantrum - сервис мониторинга всех типов СМИ и соцмедиа, который работает на довольно конкурентном рынке (недавно LIGA.net уже рассказывала, кто и как следит за нашими словами в интернете и СМИ). Но Сергей Бондаренко видит в продукте более широкие перспективы. В обозримом будущем он готовит Semantrum к выходу на рынки Европы и США.

Cтавку предприниматель делает как раз на лагуны и бухты, куда не заплывают такие киты как Google и Microsoft. Да, бухта - тоже часть океана. Но, по мнению Сергея Бондаренко, у нее своя инфраструктура, создаваемая усилиями многих людей. Там есть возможности для глобального роста, даже для локальных компаний из Украины. Главное - иметь востребованный продукт и идти в ногу со временем. 

Сергей Бондаренко считает, что скоро мы окажемся в новой реальности. В ней компьютеры смогут настолько точно подражать нам в общении, что невозможно будет отличить «цифрового» собеседника от среднестатистического представителя homo sapiens. И тогда наступит новая эра. Он хочет, чтобы наработки его команды в Semantrum стали частью этой эры. 

Журналисты редакции LIGA.net почти полтора часа расспрашивали Сергея Бондаренко о том, с чего он начинал свою карьеру, какие принципы использует в развитии бизнеса, как видит будущее искусственного интеллекта и вообще человечества, как конкурирует за таланты с аутсорсинговыми компаниями. И еще много чего интересного. 

ПРЕДЫСТОРИЯ

- Как появился Semantrum?

- Как логичное продолжение того, чем я занимался всю жизнь. Это обработка неструктурированных текстов на естественном языке. Я начал заниматься этими вопросами еще в 80-х годах, когда учился в аспирантуре Института кибернетики. Тогда там разрабатывался подход к автоматической генерации машинных программ на основе алгоритмов, записанных на естественных языках.

- То есть? Говорим или пишем алгоритм обычным русским языком, а компьютер из этого делает код?

- Примерно так. Все это базировалось на глубоких понятиях логики, структурной лингвистики и семантического анализа. Они в то время были переосмыслены Ноамом Хомским в его теории трансформационных грамматик. В общем, я прошел хорошую научную школу в советские времена, когда бизнесом заниматься было нельзя.

- Как же это переросло в бизнес, когда стало можно?

- Когда заниматься чистой наукой стало просто невозможно - нужно было зарабатывать на жизнь. Я вернулся к активному программированию, которым занимался до аспирантуры. Но почти подсознательно оставался в тренде обработки неструктурированных текстов на естественных языках. В 1991 году появилась потребность в создании систем для накопления и анализа нормативно-правовых актов независимой Украины. И мы за эту возможность ухватились. Так появилась система ЛІГА:ЗАКОН.

Президент ГК ЛІГА: "Скоро мы окажемся в новой реальности"
Сергей Бондаренко

В ЛІГА:ЗАКОН упор делался не только на быстрый и точный поиск, но и способ представления правовой информации как системы взаимосвязанных текстовых фрагментов. Конкурентную борьбу мы выиграли за счет того, что смотрели на проблематику работы с нормативной информацией «сверху». А еще сумели собрать хорошую команду разработчиков. Очень помог как раз научный бэкграунд. Мы всегда работали вместе с моей женой Мариной. Она тоже защищалась в Институте кибернетики, только по физматнаукам, а я - по техническим. Мы всегда смотрели на любую задачу с разных точек зрения. Это очень помогает.

- Сейчас непосредственным управлением ЛІГА:ЗАКОН занимается ваша жена?

- Да, я вышел из операционного управления в 2014 году. За 23 года мы стали группой компаний и к нам присоединились два наших сына, которые принесли новые направления деятельности – от юридических компаний до экологических проектов, от систем лояльности до благотворительных и пенсионных фондов.

К счастью, дети получили значительно лучшее бизнес-образование, чем мы. Гендиректором группы компаний стал наш старший сын Дмитрий. А для меня, честно говоря, выход из операционного управления стал счастливой возможностью. С одной стороны, я смог сосредоточиться на стратегических вопросах развития группы компаний в целом. С другой - вернуться к разработке систем обработки текстов на естественных языках.

В это же время у меня на горизонте появилась небольшая суперквалифицированная команда. Она много лет занималась вопросами сбора информации в открытых новостных интернет-источниках и анализом этих текстов. Мы попробовали работать с ними по глубокому анализу текстов судебных решений. Получили неплохой результат. А потом решили объединить усилия и создали новое бизнес-направление. Так и появился Semantrum.

Президент ГК ЛІГА: "Скоро мы окажемся в новой реальности"
Сергей Бондаренко

- Если коротко сформулировать, что это такое, как это будет звучать?

- Semantrum представлен на рынке как система медиамониторинга и анализа информации из открытых источников. Но это только верхушка айсберга. Основное внимание сейчас мы уделяем развитию методов машинного обучения для глубокой обработки неструктурированных текстов на различных языках.

- С какой целью? Создавать новые legal tech инструменты? Боты, электронные судьи? Улучшенные автоопределители тональности текста?

- Все гораздо шире. Я думаю, человечество стоит на пороге колоссальных изменений, связанных с новым пониманием того, как структурировано наше мышление и как мы коммуницируем друг с другом.

- Намекаете на приближение к искусственному интеллекту через языковые инструменты?

- Не намекаю - говорю прямо. В языке заложен секрет нашего мышления. Точнее, язык является знаковой системой, которая отражает человеческую картину мира. Именно сейчас созрели все предпосылки для того, чтобы построить цифровые модели, которые практически полностью повторяют нашу картину мира и «человеческий» способ анализа информации.

Думаю, что скоро мы окажемся в новой реальности. В ней компьютеры смогут настолько точно подражать нам в общении, что невозможно будет отличить «цифрового» собеседника от среднестатистического представителя homo sapiens. И тогда наступит новая эра.

СИНГУЛЯРНОЕ БУДУЩЕЕ

- Что же за эра?

- Это эра переплетения и взаимопроникновения биологического и цифрового. Почитайте Юваля Харари, особенно 10 и 11 главу его “Homo Deus”. Мне иногда кажется, что Харари сыграет в истории человечества такую же роль, какую в свое время сыграл Карл Маркс. Маркс сумел сформулировать основные законы развития капиталистического общества. Харари формулирует законы развития следующей стадии – информационного общества.

- И как это связано с Semantrum?

- Напрямую. У человечества нет другого способа описания окружающей действительности кроме языка. Язык неразрывно связан с нашим мышлением. А тексты – это «овеществленные» языковые отпечатки. И я думаю, что самый короткий путь к построению цифровых моделей языка лежит через анализ текстов.

Мировые лидеры в этом вопросе работают над первым этапом – компьютерным моделированием того, как человек распознает основные смысловые конструкции в текстах на естественных языках. Для этого применяются методы глубокого машинного обучения.

- Это, в принципе, видно по распознаванию лиц или речи. Сейчас это используется даже в средненьких смартфонах. Но с текстами-то задача посложнее.

- По большому счету, все очень похоже. Распознавание лиц на цифровых фотографиях – это очень быстрый анализ огромного количества точек. Обученные машинные алгоритмы последовательно выделяют кривые, соединяют их в контуры. Затем сопоставляют их с контурами изображения вашего лица на других ваших фотографиях-образцах, определяя степень схожести.

Представьте себе для простоты, что все слова в тексте преобразуются в точки (на самом деле в векторы). К ним применяются такие же методы выделения «контуров» смысловых языковых конструкций. Фокус прост. Вам нужно огромное количество образцов-паттернов таких смысловых языковых конструкций. Плюс очень быстрый механизм для выделения таких паттернов в произвольном тексте. И вы получите упрощенную модель того, что Даниэль Канеман назвал Системой №1 человеческого мышления. Он пишет об этом в своей книге «Думай медленно, решай быстро». За эти идеи Канеман, кстати, получил Нобелевскую премию.

Президент ГК ЛІГА: "Скоро мы окажемся в новой реальности"
Сергей Бондаренко

Наша «человеческая» система №1 не «думает», а быстро сравнивает паттерны. Это называется интуицией.

- То есть, речь о моделировании механизма нашей интуиции?

- По большому счету, да. Пока только в относительно простом примере – выделении смысловых конструкций в текстах на естественных языках. Но это только начало.

Рэй Курцвейл еще в 2012 году в «Эволюции разума» довольно подробно описал как происходит процесс распознавания образов у нас в неокортексе. По сути, в нашем мозгу «записано» очень много паттернов и мозг умеет делать очень быстрое сравнение того, что мы получили на вход, с тем, что у нас «записано» в виде паттернов. Курцвейл считает, что для записи таких паттернов в нашей коре головного мозга имеется около 300 миллионов иерархических модулей.

Современные компьютеры обладают сравнимыми возможностями: и по емкости памяти для построения таких модулей для запоминания паттернов, и по скорости сравнения «внешних» сигналов с паттернами-образцами. Так что решение задачи выделения смысловых конструкций в текстах на естественном языке уже очень близко. 

- Но кроме интуиции у человека есть и другие системы.

- Да. Система №2 по Канеману – это логика. Когда нам не хватает интуиции, нужно спокойно подумать. Система №2 - ленивая, запускается медленнее. Но она отвергает многие вещи, которые нам подсказывает интуиция.

Думаю, на наших глазах происходит моделирование системы №1 по Канеману. И люди, которые “в теме”, упорно готовятся к тому, чтобы промоделировать систему №2 – то есть по сути промоделировать алгоритмы наших рассуждений. Это не так сложно - по крайней мере так утверждает Курцвейл (улыбается).

- Это и будет настоящий искусственный интеллект?

- Да, это будет моделирование нас самих в цифровом виде. Я уверен, что мы это увидим. И хочу в этом участвовать - как смогу.

- То есть ждем этого в ближайшие 10-20 лет?

- Думаю, что да. Примерно столько времени понадобится для того, чтобы цифровые модели Системы №2 - то есть нашей собственной логики - превзошли «человеческие» возможности. Это неизбежно, поэтому нужно приготовиться и понять, как в этом жить.

Курцвейл в интервью вам говорил о слиянии биотехнологий с искусственным интеллектом. И существенном продлении жизни за счет этого. Я хочу жить в этом новом мире. Долго (улыбается).

РЫНОК ТЕКСТОВОГО АНАЛИЗА

- Глубокий анализ текстов - ладно, но их моделирование пока что звучит фантастически. Какой рынок это открывает в будущем?

- Направлений очень много. Вы наверняка слышали о таких системах, которым нужно подать входящие данные о погоде - и они генерируют огромное количество вариантов написания текста на эту тему. Это был первый шаг. Сейчас Natural Language Generation уже не ограничивается прогнозами погоды. Он стремится моделировать процесс сторителлинга.

- Уже ведь есть попытки.

- Да, журналистов уже пугают, что текст робота не отличишь от текста человека. Знаете, как сейчас делают? Если журналист плодовитый, берут его тексты, обучают модель - и она начинает генерить похожие тексты и чуть ли не повторять его стиль. Главное, чтобы образцов его статей было достаточно много для обучения модели.

Это называют помощником журналиста: модель может написать в стиле журналиста, а он потом немного редактирует.

- В английском это уже есть. Но с нашими языками, вроде как, сложности?

- Какие же?

- Я всегда думал, что проблема всегда с порядком слов, правилами, сленгом и т.д.

- Ничего подобного, забудьте. Это в 1989 году строили правила, из которых выводили синтаксис и даже семантику. И находились в полном тупике. Потому что построить правила, из которых выводится текст, нереально. Именно потому мы так и не мыслим.

Сейчас не так. Сейчас набирается огромное количество текстов. Несколько недель назад уже выходил пресс-релиз о новой модели генерации текстов OpenAI…

- … код которого в итоге не захотели публиковать?

- Да. Они взяли большое количество текстов. Программа ставит слово и вычисляет вероятность на основании этих текстов, какое слово будет следующим. Какие здесь правила? Чистая статистика и чистое моделирование. И чем больше, к примеру, будет писаться текстов о Трампе, тем более «чистыми» и «человеческими» получаются тексты о Трампе. Потому что просто берется огромное количество «паттернов».

- Как в Google Переводчик. Чем более распространенная тема, тем перевод лучше.

- Да. Потому что они берут множество паттернов и из них выбирают наиболее вероятные.

Президент ГК ЛІГА: "Скоро мы окажемся в новой реальности"
Сергей Бондаренко

- Научившись генерировать тексты, нужно же куда-то это применять. Продавать роботов в редакции вместо журналистов?

- Нет, редакции изданий – не слишком щедрые покупатели. Нужно генерировать тексты, которые помогают продавать. Насколько я знаю, мировой рынок таких услуг сейчас около $300 млн и оценивается в $1 млрд через 3 года. Это скромные подсчеты. Как сейчас делается? Например, по описанию синего шерстяного кардигана с блестящими пуговицами для интернет-магазина может генерироваться примерно такой текст:

“Ах, как приятно прижаться к надежному мужскому плечу. К теплой и мягкой ангорской шерсти удивительно красивого голубого кардигана, погладить его, посмотреть на эти золотые пуговицы, и вспомнить, с какой любовью был сделан этот подарок любимому мужчине”.

- То есть e-commerce подхватывает такие вещи? Когда много единиц товара…

- … и нужно нагенерировать тысячу текстов по-разному и в разных стилях.

Для деловых редакций существуют другие предложения. Например, вы каждый день получаете сводку стоимости акций компаний в виде таблицы. И вам нужно ежедневно генерировать тексты новостей об изменении их стоимости.

- Кажется, это попроще, чем про свитер.

- Не скажите. Повторяться ведь неприлично.

“Драматическое падение акций компании X на 1,5 пункта было замечено тогда-то после сообщения о крупной неприятности у руководства этой компании. Это привело к содроганию всего рынка. Но, к счастью, к 14:00 все выровнялось, поскольку информация оказалась фейком”.

Вот такие тексты сейчас генерируют автоматически. И это мировой тренд.

- Значит, ориентируетесь на мировой тренд. Но тогда у продукта должно быть соответствующее качество.

- Да. Для меня признаком того, хороший продукт или не очень, всегда служит то, что люди не хотят от него отказываться. Semantrum - из таких. Его трудно продавать, потому что, извините, заказчики привыкли к посредственности. Они привыкли, что им приносят какие-то отчеты, сделанные вручную. Как собирали информацию, кто ее анализировал и строил графики? А наши клиенты понимают, что могут перестраивать информацию в любых разрезах, как кубик Рубика. Они могут построить любой отчет. И видят информацию до глубины, понимая охваты, фокусы, акценты и так далее. Те, кто подсел на этот инструмент, не хотят с этого уходить. Они не хотят возвращаться ни к ручным отчетам, ни к более слабым системам.

Президент ГК ЛІГА: "Скоро мы окажемся в новой реальности"
Сергей Бондаренко

Второй момент - интеграция. Можно выпасть из информации из соцсетей сразу в Contragent, чтобы получить информацию о компании, учредителе, судебных делах, потом вернуться - и т.д. В принципе, сейчас наша система выполняет многие функции конкурентной разведки и OSINT (Open Source Intelligence – разведка, основанная на анализе открытых источников).

- Какой вообще уровень цен на такие услуги?

- Разный - зависит от того, что хочет заказчик. У нас есть прайс, он начинается от 2000 грн в месяц и заканчивается на 40-70 тысячах. Это не так много. Плюс у нас облачный продукт. Но не все организации хотят, чтобы мы знали, чем они интересуются. Такие организации предпочитают все оставлять у себя. Это совсем другие проекты и другие цены.

- То есть приземляете сервис на сервер заказчика?

- Да, разворачиваем инфраструктуру.

ДЕНЬГИ И ГЛОБАЛЬНЫЕ КОНКУРЕНТЫ

- Вы собираетесь привлекать инвестиции?

- Группа компаний занимается управлением активами и пулом инвестиций. У нас есть свои собственные возможности инвестирования. И мы вкладываем в бизнесы, которые считаем перспективными.

Стартапы вынуждены отдавать доли на ранних этапах за относительно небольшие деньги. Мы можем проинвестировать бизнес до такого уровня, когда он будет интересен для того, чтобы привлекать инвестиции другого уровня. И не только венчурные, но и стратегические.

- Как вы себя видите через год? Что такое Semantrum? Какого уровня? С чем работает? Где работает?

- Понимаете, рынок Украины очень узок. Поэтому мы стремимся на глобальные рынки. И будем делать продукты на разных языках. Больше всего нас интересует американский и европейский рынки – напомню, что сегодня в нашем активе 10 языков.

- Но там вас встретит тот же Google. Они же работают над глубокой обработкой текстов на разных языках. И что вообще с мировой конкуренцией?

- Конечно, работают. И не только они - Facebook, Microsoft, IBM тоже не стоят на месте. Они открывают свои библиотеки алгоритмов машинного обучения для того, чтобы привлечь к развитию своих методов людей, которые будут на них делать прикладные задачи.

В январе Google анонсировала выход обновленной версии 2.0 своего известного фреймворка TenzorFlow, А перед этим в декабре Facebook полностью открыл исходный код PyText — библиотеки для создания моделей обработки естественного языка, которая работает на фреймворке PyTorch (это конкурент TenzorFlow). Есть еще Microsoft, IBM и отдельно стоящая некоммерческая организация OpenAI. Эти гиганты порождают океаны возможностей и в целом двигают индустрию вперед.

- У гигантов всегда будет преимущество перед небольшими командами, особенно в инновационных областях, требующих существенных вложений. Чем будете брать, как на это смотрите?

- Спокойно смотрю. Google мыслит океанами, а не лагунами. Он просто не будет заниматься чем-то узким. Он делает систему, которая лучше всего ищет во всем интернете, или переводит тексты почти со всех языков. Но люди живут и работают в бухтах и лагунах. Да, это часть океана. Но инфраструктура бухты должна быть своя.

Мы не делаем продукт, конкурирующий с Google или Facebook - я не хочу заниматься утопиями. Но обустройство бухт всегда приносило хорошие возможности тем, кто занимается конкретной идеей.

КОНКУРЕНЦИЯ ЗА ЛЮДЕЙ

- Как у вас с подбором людей в команду? Где их берете, насколько сложно удерживать?

- Сооснователи Semantrum – это интеллектуальные и квалификационные центры, которые притягивают хороших специалистов. А каждый разработчик всегда находится в колебаниях между «галерами» аутсорса и самореализацией в продукте. Зарплаты примерно сравнимы. Но, идя в аутсорсную компанию, ты понимаешь, что у тебя есть стек технологий и твою квалификацию перепродает владелец этой компании. Ты садишься и гребешь, чаще всего не видя конечного результата. Я не считаю, что в этом есть что-то плохое. Тем более, так или иначе, рано или поздно все аутсорсные компании начинают тяготеть к продуктам. Потому что маржинальность продуктов всегда выше.

Мы ищем людей, которым интересно реализовывать себя в продукте. Который ты делаешь своими руками и видишь результат. В котором у тебя постоянная обратная связь от довольных пользователей. В этом разница.

Президент ГК ЛІГА: "Скоро мы окажемся в новой реальности"
Сергей Бондаренко

Я считаю, что роль тех, кто сделал аутсорсные компании, трудно переоценить. Они большие молодцы, это супер для нашей страны, для притока денег и подъема технологического уровня разработчиков. Но сам я – продуктовик, и на всю жизнь я испорчен ощущением радости от того, что я что-то сделал и вижу, как это живет и используется. И, конечно, маржой (смеется).

- Вы не считаете, что аутсорсеры сейчас немножко портят жизнь украинским продуктовым компаниям? В частности, конкуренцией за кадры. Или это все-таки взаимный процесс: не было бы первых, не было бы и кадров для вторых?

- Нельзя сказать, что портят жизнь. Они дают очень хорошие кадры и много делают для того, чтобы эти кадры обучались. Понимаете, любой разработчик выбирает для себя свою судьбу. Он может работать в продукте, а может - в аутсорсе. Это просто две разных модели профессиональной жизни.

Компании-аутсорсеры производят огромное количество специалистов, но не все из них хотят оставаться аутсорсерами. Некоторые хотят реализовать себя в продукте. И это очень динамический процесс.

- То есть находить людей в команду несложно?

- Сложно, но не сложнее, чем аутсорсерам. Это общая проблема. Просто мы перебираем больше. Аутсорсеры, как мне кажется, берут количеством. А мы же ищем не только стек технологий. В любом продуктовом проекте человек значительно больше вовлечен в бизнес-аналитику и в процесс коммуникации с конечным клиентом. А в аутсорсе чаще всего кто-то думает об этом за него.

- Ну и условного джуниора вы к себе вряд ли возьмете.

- Берем. Некоторые джуниоры у нас выросли. Джуниоры тоже ценны, потому что они делают много полезной работы и постепенно вырастают. Важно, чтобы были те, кто расскажет им, что делать.

- Ценностные установки важнее, чем первичные скиллы?

- Скиллы нужны. Но важна и философия самореализации в профессии.

- Насколько высокая маржа в таком бизнесе?

- Продуктовая маржа хорошего продукта, который удовлетворяет пользователя лучше других - всегда высокая. Маржа - это произведение первичного восхищения от продукта на способ его дальнейшего сопровождения. Одному из потенциальных клиентов мы показали информацию, которую нашли о нем в Semantrum - а он о многом даже не знал. И рефлекторно потянулся за кошельком. Вот степень его восхищения - степень готовности заплатить. Нам, к счастью, удается вызывать такое восхищение.

И ОБ ОЧЕНЬ АКТУАЛЬНОМ

- Как вы смотрите на выборы и их результаты?

- Никак. Меня в выборах интересует результат, а не процесс. Задача состоит в том, чтобы строить бизнес, который работает независимо от того, кто будет президентом. Я думаю, и страну нужно тоже так строить.

- Что скажете о кандидатах?

- Думаю, независимо от того, кого выберут, страна окажется в новой реальности. И очень важно, чтобы эта власть в этой новой реальности ориентировалась на бизнес в целом, а не на отдельных «выгодополучателей». Причем на деле, а не на словах.

Мне нравится, что у нас не так, как в России. Там все понятно и безнадежно.

А у нас - ничего не понятно, но надежда есть, как мне кажется (смеется).

- А как вы относитесь к инициативе Минсоцполитики подприжать айтишников и посадить всех в штат?

- Я считаю, это глупость. Она будет подталкивать к отъезду лучших. Если для айтишников сделают 5 группу, позволят увеличить доход и отвязаться наконец от глупых «приседаний» по поводу штата/нештата, то по налогам и поступлениям валюты в страну государство только выиграет. Все ведь понимают, что айтишники работают ФОПами. Так давайте нормально это разрешим. Айтишников надо оставлять здесь. Релокация не так хороша и не всем подходит.

- Но кому-то подходит.

- Так они в любом случае уедут. И это тоже хорошо. Все равно они наши. И связи остаются.

А вообще все равно мы выживем. Чего только на нашем пути не было. Ничего страшного. Все будет хорошо.

Disclaimer: Объявление о возможном конфликте интересов

Компания Semantrum является структурным подразделением Группы Компаний ЛІГА, частью которой также является Ligamedia с порталом LIGA.net. Инициатива взять интервью исходила от редакции. Его текст подготовлен на общих редакционных основаниях.