Наконец-то у украинского языка будет свой GEC-корпус. Для чего он нужен и почему это важно
Українська мова входить до 50-ти найпоширеніших мов світу, але якісних текстових ресурсів для її дослідження небагато.
Це призводить до того, що, наприклад, для української мови складніше створити сервіси для інтелектуальної перевірки правопису, які є для англійської, російської та багатьох інших мов світу. Створення українського GEC-корпусу розширить наявний інструментарій для дослідників та пришвидшить створення нових онлайн-продуктів для української мови.
Що таке GEC-корпус мови і навіщо він потрібен
Цю абревіатуру розшифровують як Grammatical Error Correction — виправлення граматичних помилок, а мовний корпус — сукупність текстів, які написали звичайні люди, а потім їх опрацювали (проанотували помилки) українські лінгвісти. Призначення корпусу текстів — наукове та практичне вивчення мови.
Такий GEC-корпус містить дані, які можна використати, щоб навчити різноманітні алгоритми виправляти граматичні помилки. Що більше даних у корпусі, то більше можливостей для тренування програми, і то краще вона працюватиме в результаті.
Ідея створити такий корпус для української спала на думку одному з наших дослідників. У серпні 2020 року компанія Grammarly ініціювала збір першого проанотованого GEC-корпусу української мови. Ми плануємо викласти корпус у відкритий доступ для загального користування.
Як укладається GEC-корпус
Укладання GEC-корпусу охоплює кілька етапів: збір текстів, анотування, власне укладання та публікацію.
Збір текстів. Збір текстів відбувається через сайт проєкту, де кожен охочий може поділитися своїми текстами. Це можуть бути есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ідея в тому, щоб зібрати саме "живі" тексти українською, з помилками: граматичними, стилістичними та орфографічними.
Станом на сьогодні ми зібрали приблизно 22 000 речень, що еквівалентно 283 613 словам. Для порівняння, український переклад роману "Улісс" Джеймса Джойса містить 272 916 слів. Тобто це доволі багато, і цього обсягу достатньо для створення першої версії корпусу.
Проте ми ухвалили рішення продовжити збір текстів до 31 грудня 2020 року, адже що більше даних у корпусі, то більше можливостей для подальшого використання. Для порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000 речень, а англійської — 1,167 млн речень!
Анотування. Наші лінгвісти перевірять ці тексти, виправлять помилки і категоризують їх на граматичні, орфографічні, пунктуаційні й лексично-стилістичні.
Укладання корпусу. На цьому етапі перевіряється якість анотування й категоризації, коригується збалансованість корпусу за різними характеристиками (за необхідності), аналізується статистика (наприклад, співвідношення різних видів помилок у корпусі), оформляються самі дані в зручному для використання вигляді.
Ми ділимо дані на кілька частин (деякі з них можна використовувати для тренування алгоритмів, а інші для тестування), готуємо документацію з ретельним описом корпусу, а також програмні інструменти, які дозволяють його опрацьовувати.
Публікація. Підсумкові результати попереднього етапу (самі дані, документацію та програмні засоби опрацювання) ми й викладемо у відкритий доступ.
Коли з'явиться GEC-корпус української мови
Очікуємо, що готовий анотований корпус буде загальнодоступним у січні 2021 року.
Якщо у вас є бажання допомогти нам створити перший GEC-корпус української мови, зробити це можна, поділившись своїми текстами тут.
Щодо практичного застосування корпусу
Оскільки ми зробимо зібраний GEC-корпус загальнодоступним, будь-хто (від студента-науковця до приватної компанії) зможе скористатися ним чи для дослідницької роботи, чи для створення або поліпшення власного онлайн-додатку або продукту. Нам самим цікаво буде стежити за подальшим використанням корпусу та його впливом на ринок.