Щодня на офіційному інформаційному порталі Кабінету міністрів України про COVID-19 публікують статистичну інформацію щодо рівня захворюваності населення, наявності та потреби лікарень в забезпеченні засобами індивідуального захисту (ЗІЗ), ліжками, апаратами штучної вентиляції легень (ШВЛ) та іншим. 

Ці дані використовує влада, бізнес, громадськість, на їх основі створюють різноманітні аналітичні панелі. Але наскільки вони надійні та достовірні? Чи можна ними керуватися для розуміння реальної ситуації з коронавірусом в Україні та ухвалення таких важливих для життя кожного українця рішень? 

Аналітики OpenUp порівняли дані, які були опубліковані на порталі, за 18 і 20 травня та за 26 квітня і 22 травня. Результат виявився невтішним - дані недостовірні.  

Значні зміни "заднім числом" 

Порівняння опублікованої на порталі інформації за 26 квітня і 22 травня показало, що за травень відсутні дані про 310 записів з 18 лікарень, які були у файлі місячної давнини. Мова не про те, що щось з часом змінюється, а про те, що історичні дані (по 26 квітня) змінили. Чи їх завели помилково, чи є інші причини - невідомо. 


Джерело даних

Аналіз даних по 26 квітня щодо стану забезпечення лікарень засобами індивідуального захисту у файлах за 26 квітня та 22 травня показав, що до 80% записів щодо ЗІЗ переписали - лише 1 з 5 цифр однакова у двох "журналах обліку" і не переписана.

То на які ж дані опиратися? На ті, що за 26 квітня, чи за 22 травня? 

Джерело даних

Відхилення у 20-80% взагалі позбавляє ці дані будь-якого аналітичного та практичного сенсу, адже вони радше дезінформують суспільство, ніж розповідають про реальний стан речей. Точність даних менша ніж 100% вже погана та має доводитись до ідеалу. На практиці, 90-95% точності даних дають змогу оцінити загальну картину. При 20%+ брудних даних похибка вже може бути вкрай великою і дані використовувати не рекомендується, а при 50% - сенс аналізу втрачається абсолютно.

Щодо даних від 18 та 20 травня, тут така ж ситуація. Реальна наявність ліжок по лікарнях незрозуміла, оскільки у всіх областях є розбіжності. Коригування даних щодо ліжок станом на один і той самий день (17 травня) різниться в двох опублікованих на порталі файлах: 18 травня запис містив 669 вільних та 2039 зайнятих, а 20 травня було змінено на 1755 вільних та 453 зайнятих. Також, загальна кількість ліжок зменшилась на 500.

Частково це можна пояснити тим, що деякі лікарні не подали інформацію вчасно, а лише через два дні. Однак пояснень чи роз’яснень щодо такої розбіжності в даних на порталі Кабмін для користувачів не надав. 

Джерело даних

Такі дані вводять тих, хто ними користується, в оману. Якщо на їх основі вирішують, як розподіляти кошти на лікарні, ефективність таких рішень під великим питанням. До всього, згідно Закону України "Про доступ до публічної інформації", публічна інформація має бути точною та актуальною. А за порушення закону існує лише адміністративна відповідальність та штраф у розмірі 450-800 гривень.

Крім того, є ще одна проблема - історія зміни даних на порталі не ведеться. Аналітикам вдалося порівняти оприлюднені дані щодо COVID-19 в Україні лише завдяки  завантаженню попередніх файлів. Тобто, кожен файл -  це своєрідний "журнал обліку", який можна завантажити. Але на порталі його не доповнюють, а щодня повністю оновлюють. Якби такий облік був паперовий та лише в одному примірнику, то журнал був би весь у виправленнях. Окрім частини про кількість персоналу.

Білі плями про ПЛР-тестування та благодійність  

Якщо говорити про доступ до даних про ПЛР-тести, тут також виникає велика проблема -  незрозуміло, немає даних чи тестів. Якщо вірити офіційним даним за 22 травня, лише в 11 областях України лікарні вносять інформацію щодо ПЛР-тестів. Це при тому,  що саме на ці дані посилаються урядовці, коли приймають рішення щодо послаблення карантину.   

Дані щодо проведення тестування населення на COVID-19 держлабораторіями у файлі взагалі не збираються, тому дізнатися реальну картину тестування та оцінити його перебіг неможливо. І це на третій місяць карантину в країні.  

Якщо аналітики даних захотіли б зробити мапу щодо розподілу тих "мільйонів тестів",  які, по словам президента Володимира Зеленського,  мали б завести в Україну,  цього б не сталось, бо немає на основі чого. Узагальнена інформація, яка звучить з вуст посадовців або подана на офіційних сайтах, - віра на слово. 

Джерело даних

Окреме питання щодо обліку благодійної та гуманітарної допомоги медичним закладам. З оприлюднених даних неможливо визначити, що лікарні купили самі, а чим їм допомогли люди, бізнес, благодійні та волонтерські організації. Дані, доступні через систему Prozorro чи Єдиний портал публічних фінансів spending.gov.ua, не дають розуміння, наскільки забезпечені лікарні і які в неї потреби.
Тобто, повної та точної інформації, що закуплено, а що передано по лікарнях немає в відкритому доступі, а системи обліку не пов’язані з реальним станом забезпечення. 

Діагноз медстатистики про COVID-19 

Ситуація з якістю, повнотою та достовірністю статистичних даних про Covid-19 є яскравою ілюстрацією ситуації з медичною статистикою та діджиталізацією в цілому. Ми досі не знаємо, хто є розпорядником цих даних, дані оприлюднюються з порушенням інформаційного законодавства, ми не знаємо реального стану справ з ПЛР-тестами, забезпеченням, в дані вносять зміни, а похибка за деякими показниками становить 80%.  

Необхідно терміново виправити виявленні проблеми щодо ведення статистики про захворюваність населення на COVID-19 та медичну ситуацію в країні. Визначитися, хто несе відповідальність за оприлюднення недостовірної інформації і його наслідки. 

Привести до ладу виявлені недоліки у даних, оприлюднювати набір даних з історією змін та додатково на порталі відкритих даних. Додати дані про благодійність та ПЛР-тестування. 

Проаналізувати, як працює система медстатистики, і зрозуміти, чому вона на цьому етапі якісно не спрацювала (і чи взагалі вона працює). Розробити план її реформування з використанням сучасних підходів до збору, верифікації даних, у тому числі залучення усіх стейкхолдерів галузі: пацієнтів, лікарів,  благодійних та інших організацій та постачальників.

Колонка написана у співавторстві з Дмитром Усмановим, розробником сервісів Youcontrol