Michał Rogalski dla Gazeta.pl: Jak oficjalne dane o epidemii w Polsce straciły swoją wiarygodność

"Gdy na początku pandemii w Polsce zaczynałem prowadzić bazę danych, nie miałem podstaw, żeby nie ufać oficjalnym danym. To przecież tak naprawdę jedyna możliwość monitorowania jej rozwoju. Najczęstsza krytyka mojej pracy, z którą się spotykałem, była właśnie związana z wiarygodnością danych. Ludzie przekładali swój brak zaufania do rządu na dane epidemiczne, jednocześnie przez to uznając ich zbieranie za bezwartościowe i pozbawione sensu. Ja jednak uważałem, że gdyby ktoś przy danych majstrował, to trup prędzej czy później wypadłby z szafy. Liczba źródeł powodowała, że manipulacja danymi byłaby bardzo skomplikowaną operacją angażującą całkiem sporo ludzi". Artykuł Michała Rogalskiego, twórcy obywatelskiej bazy danych o epidemii, dla Gazeta.pl.

Gazeta.pl wspiera grupę pasjonatów, którzy gromadzą i analizują dane na temat epidemii COVID-19. "Nasze wspólne działania mają charakter obywatelski jako forma sprzeciwu wobec obecnego chaosu informacyjnego. Działając wspólnie, możemy stworzyć jak najbardziej rzetelne źródło informacji". Przyłączenie się do apelu uznajemy za naszą misję. W odpowiedzi na brak pełnego źródła informacji o COVID-19 na stronach Ministerstwa Zdrowia udostępniamy jedyny powszechnie dostępny zbiór danych o epidemii w Polsce.

***

Głównym problemem, z którym spotkałem się przy zbieraniu danych, był po prostu bałagan i logistyczne nieprzygotowanie do codziennego ich raportowania przez sanepidy. Tak to sobie przynajmniej tłumaczyłem. Często się zdarzało, że jakieś dane nie były zbierane, a pomyłki rzędu kilku przypadków były na porządku dziennym. Chociażby w lipcu nagłaśniałem sprawę "zgubienia" aż ponad tysiąca chorych w województwie śląskim. Wtedy to było całkiem sporo - ale nikt na to nie zwrócił uwagi, przypadki potem dorzucono i sprawa rozeszła się po kościach. Jednak to wszystko nie miało znaczącego wpływu na całość i nadal pozwalało na w miarę wiarygodną ocenę sytuacji.

Do czasu... A cała sprawa jest dość złożona, bo nie było przecież tak, że raz wstałem lewą nogą i uznałem, że "nie ufam danym".

Nagle przypadki zaczęły się gubić

Na początku listopada większość prognoz i analiz zakładała z dużym prawdopodobieństwem, że przekroczymy próg "narodowej kwarantanny" w okolicach 11 listopada. Jednak według oficjalnych danych tak naprawdę w ostatnim momencie zawróciliśmy z kursu na lockdown. Wyglądało to tak, jakby za pociągnięciem jakiejś magicznej dźwigni liczba przypadków zaczęła nagle spadać. Okazało się, że jednocześnie drastycznie spada liczba wykonywanych testów i... pogubiło się trochę przypadków.

.Kwarantanna narodowa mogła zostać wprowadzona. 'Uratowały' nas błędy

Podczas zbierania danych o zakażeniach z województwa mazowieckiego i śląskiego ja i inni wolontariusze zauważyliśmy, że w okolicach 2 listopada suma potwierdzonych przypadków z PSSE (Powiatowych Stacji Sanitarno-Epidemiologicznych) zaczęła się znacząco rozjeżdżać z danymi podawanymi przez Ministerstwo Zdrowia. Zaczęliśmy najpierw sprawdzać, czy to w naszej bazie nie popełniono jakieś błędu. U nas wszystko się zgadzało, a różnice rzeczywiście pojawiły się pomiędzy oficjalnymi danymi. Liczba nowo potwierdzonych przypadków zaniżana o nawet tysiąc dziennie spowodowała, że różnica na dzień 13 listopada wyniosła już ponad 17 tys. przypadków. Sprawa została nagłośniona, zainteresowały się nią media i szum musiał wywołać jakąś reakcję - minister zlecił kontrolę w Głównym Inspektoracie Sanitarnym.

Kilka dni później potwierdzono, że błędy znalezione przez wolontariuszy okazały się prawdziwe, a w środę 18 listopada mieliśmy ze strony szefa GIS poznać wyniki kontroli. Konferencję w końcu przełożono jednak na piątek 20 listopada, a w międzyczasie różnica przestała się zwiększać - zapewne proceder został zatrzymany. Piątek zakończył się dymisją szefa GIS Jarosława Pinkasa (oficjalnie z powodów zdrowotnych) i niestety nie dowiedzieliśmy się niczego. 

Konferencja prasowa po raz kolejny została przełożona, tym razem na poniedziałek 23 listopada. Urzędnicy w końcu planowo wyszli do mediów i obwieścili, że rzeczywiście zgubiono w statystykach ponad 22 tys. potwierdzonych przypadków. Podano wiele możliwych powodów tych nieprawidłowości, ale tu chyba nie ma większego sensu się nad nimi rozwodzić. Najgorsze jest to, że tych kilkadziesiąt tysięcy znalezionych przypadków zostało, jak gdyby nic się nie stało, po prostu dorzucone do ogólnej puli przypadków następnego dnia. Bez podania dni czy województw, w których doszło do zaniżenia. To był mocny cios dla wiarygodności danych, bo w ten sposób ich obraz został znacząco zniekształcony. Taki zabieg jest po prostu niedopuszczalny i dość dosadnie pokazał podejście instytucji państwowych do danych.

Przy okazji dowiedzieliśmy się od zastępczyni szefa GIS, że osoby, które znalazły błędy, były może metodologicznie nieprzygotowane do interpretacji danych i mogły odnieść tylko błędne wrażenie, że do tych nieprawidłowości rzeczywiście doszło.

Gdy jednak zacząłem zliczać zgubionych chorych według danych PSSE, chyba znalazłem przyczynę, dla której nikt nie chce podać szczegółowych danych dotyczących zgubionych przypadków. Okazało się, że uwzględniając przypadki, na podstawie których wykryliśmy nieprawidłowości, 11 listopada, w Święto Niepodległości, przekroczyliśmy próg "kwarantanny narodowej" ustalony przez rząd (71,5 zakażeń na 100 tys. osób dziennie w ciągu ostatnich siedmiu dni). 

Nowa baza danych to błędy i pole do manipulacji

W swojej wyidealizowanej wizji świata liczyłem na to, że w obliczu kryzysu wizerunkowego związanego z danymi doświadczymy jakieś poprawy w polityce informacyjnej. Ministerstwo Zdrowia i GIS przyjęły jednak inną strategię - jeżeli ktoś znalazł nieprawidłowości w szczegółowych danych podawanych przez lokalne sanepidy, to trzeba obywateli od dostępu do tych danych odciąć. GIS zakazał ich publikowania.

Po dziewięciu miesiącach od rozpoczęcia epidemii w Polsce ktoś wpadł na to, że warto stworzyć kompletną scentralizowana bazę danych. Teoretycznie ruch dobry - tak robi większość krajów. Jednak raczej ten ruch nie był motywowany chęcią dobrego informowania społeczeństwa, ale posiadania pełnej kontroli nad danymi i monopolu na informacje w obliczu kryzysu wizerunkowego z nimi związanego. W tym momencie już tak naprawdę nie wiemy, czy prezentowane dane będą zgodne ze stanem faktycznym. Jeżeli nieprawidłowości w danych znajdują wolontariusze, a nie urzędnicy państwowi, to można mieć uzasadnione obawy, że taka baza danych bez obywatelskiej kontroli stwarza pole do manipulacji. 

Odpowiedź otrzymana od jednego sanepidów po prośbie o udostępnienie danych:

Odpowiedź otrzymana od jednego sanepidów po prośbie o udostępnienie danychOdpowiedź otrzymana od jednego sanepidów po prośbie o udostępnienie danych Michał Rogalski

Baza, którą dostaliśmy od resortu zdrowia, to według mnie smutny żart robiony na szybko. Lokalne sanepidy podawały obywatelom bardzo szczegółowe dane dotyczące wyzdrowień, ognisk, liczbie osób w izolacji, liczbie testów itd. Ze strony Ministerstwa Zdrowia dostaliśmy tylko dane o potwierdzonych przypadkach i osobach zmarłych z jednego dnia. Koniec. Brak nawet danych historycznych, a archiwum to osobne pliki z każdego dnia od 24 listopada. Podawanie informacji w tak niepełnej formie mocno ograniczyło możliwości ich analizy. Dostaliśmy informację, że strona będzie uzupełniana i nadal urzędnicy nad nią pracują. W porządku, ale dlaczego - skoro rządowa strona jest jeszcze niegotowa - odcięto obywateli od innych źródeł wiedzy?

Przykładowe dane publikowane dla woj. małopolskiego przez sanepid przed zakazem GIS:

Przykładowe dane publikowane dla woj. małopolskiego przez sanepid przed zakazem GISPrzykładowe dane publikowane dla woj. małopolskiego przez sanepid przed zakazem GIS Sanepid

Tabelę w pełnej rozdzielczości znajdziesz TUTAJ.

Warto dodać, że różnica w liczbie potwierdzonych przypadków, którą znaleźliśmy, zaczęła po całej sytuacji się zmniejszać (według danych z PSSE do 23 listopada). To by oznaczało, że zgubione przypadki były po cichu dosypywane, a mimo tego 22,5 tys. przypadków zostało dopisane w korekcie 24 listopada. Może to również sugerować, że zrobiono jeszcze większy bałagan, niż był wcześniej i zgubione przypadki doliczono w końcu nawet podwójnie.

No ale dobra - fala krytyki minęła i strona zaczęła działać. Mijają trzy dni i... dane w raporcie Ministerstwa Zdrowia 27 listopada nie zgadzają się z tymi podawanymi na nowej stronie. Niecałe 30 minut od publikacji raportu dostajemy "erratę" od ministerstwa. Winę zwalono na laboratoria. Chwilę później podana liczba wykonanych w ciągu doby testów też się nie zgadza i została zawyżona - tu wystarczyło zwykłe działanie odejmowania, żeby znaleźć błąd. W tym wypadku "erraty" już nie dostaliśmy, bo druga z rzędu to byłby niezły wstyd.

Kiedy myślimy, że teraz to na pewno już rządowi urzędnicy będą się pilnować, następnego dnia okazuje się, że strona zamiast danych z 28 listopada pokazuje dane sprzed trzech dni. Przygód z nowym systemem to niestety jeszcze nie koniec - wraz z jego wdrożeniem od 24 listopada pojawiły się nowe, nieodłączne formułki codziennych raportów Ministerstwa Zdrowia: "W związku z korektami wprowadzanymi na bieżąco przez laboratoria w systemie EWP globalna liczba zakażeń od początku pandemii może nie być sumą kolejnych dziennych zakażeń". Po prawie dwóch tygodniach jego działania nadal nie udało się wyeliminować nieprawidłowości, a różnica wynosi teraz ok. 250.

Dodatkowo w raportach pojawiły się tzw. przypadki "bezdomne" - bez przypisania ich do województwa. Są to przypadki bez podania adresu przez laboratoria i dane mają zostać w przyszłości uzupełnione przez sanepid. Korekty na razie się nie doczekaliśmy, a "bezdomnych" przypadków mamy już w sumie 1077.

Obecnie najgorsza sytuacja na zachodzie i północy Polski

Żeby nie było, że inicjatywę ministerstwa tylko krytykuję, spróbujmy sobie publikowane od 24 listopada na stronie dane przeanalizować. Sprawę ułatwił nam Piotr Tarnowski, który tworzy wizualizacje danych epidemicznych.

Średnia liczba nowych zakażeń z siedmiu dni na 100 tys. mieszkańcówŚrednia liczba nowych zakażeń z siedmiu dni na 100 tys. mieszkańców Piotr Tarnowski

Mapkę w pełnej rozdzielczości znajdziesz TUTAJ.

Wygląda na to, że obecnie najgorzej radzi sobie zachód i północ naszego kraju. Województwa, które wcześniej radziły sobie najgorzej, bardzo szybko pozbyły się wirusa, a... na granicach województwa warmińsko-mazurskiego chyba stoi jakiś bardzo wysoki mur. 

Rozprzestrzeniania wirusa nie zatrzymałaby granica województwa, więc inne województwa musiały po prostu bardzo ograniczyć testowanie. Potwierdzają to m.in. dane o liczbie wykonanych testów według województw. W śląskim nastąpił spadek z 92 tys. testów w tygodniu od 2 do 8 listopada do 52 tys. w następnym (a zatem mniej o 40 tys.). W minionym było to już tylko 34 tys. próbek. Tak szybko, z tygodnia na tydzień, nie mogła się zmniejszyć liczba osób zgłaszających się z objawami.

Tygodniowa liczba wykonanych testów w woj. śląskimTygodniowa liczba wykonanych testów w woj. śląskim 


Wykres w pełnej rozdzielczości znajdziesz TUTAJ.

Bałaganu niestety jeszcze nie koniec. 22 listopada w województwie lubuskim z dnia na dzień liczba dostępnych respiratorów skoczyła z 63 do 177 sztuk (+114). Nawet największemu laikowi taki skok wydałby się niemożliwy. Niestety, nie Ministerstwu Zdrowia, bo zrzucone z nieba urządzenia zostały i tak wpisane do codziennego raportu. Następnego dnia okazało się, że lubuskie jednak rzeczywiście ma nadal tylko 63 respiratory, więc w raporcie resortu zdrowia liczby poszły w dół. Niby drobna sytuacja, ale pokazująca, że dane nawet nie są weryfikowane w poszukiwaniu ewentualnych błędów, tylko na ślepo przepisywane do raportów. To również uderza w ich wiarygodność jako ogół.

W obliczu tych wszystkich nieprawidłowości, błędów i zmian systemu raportowania doświadczamy drastycznych spadków w liczbie potwierdzonych przypadków, w tydzień o niemal 50 proc. Tak szybka poprawa sytuacji nie była brana pod uwagę nawet w optymistycznych prognozach i nie pokrywa się z innymi wskaźnikami. To wszystko powoduje, że coraz więcej osób po prostu nie wierzy tym liczbom.

No i co z tego?

Ministerstwo chcąc ugasić jeden pożar, wznieca kolejny, jeszcze większy. Już pomijając fakt, że pożary są właściwie tylko ciągle gaszone, a nie zapobiega się im. Już nawet nie chodzi o doszukiwanie się spisków, że ktoś tymi danymi będzie manipulował. Brak wiarygodności danych to nie tylko bezpośrednie zagrożenie dla zdrowia i życia obywateli, lecz także spadające zaufanie społeczne do działań władz w walce z pandemią - które w tym momencie jest kluczowe (np. w kontekście szczepień). Dodatkowo pojawia się ryzyko na arenie międzynarodowej. Polska może przez ten bałagan zacząć być traktowana jako ukryty "hotspot" wirusa. To niestety już się dzieje, bo jedna z ważniejszych europejskich organizacji monitorujących sytuację epidemiczną - Europejskie Centrum ds. Zapobiegania i Kontroli Chorób - oznaczyła w najnowszych publikacjach Polskę na szaro w związku z brakiem dostępu do danych.

14-dniowa średnia liczba przypadków na 100 tys. mieszkańców:

14-dniowa średnia liczba przypadków na 100 tys. mieszkańców14-dniowa średnia liczba przypadków na 100 tys. mieszkańców ECDC

Mapę w pełnej rozdzielczości znajdziesz TUTAJ.

Polska stała się szarą wyspą i jeżeli rząd nie zmieni swojego podejścia do danych i nie zacznie traktować ich poważnie, ten kryzys będzie się tylko pogłębiać. Żeby stworzyć największą publicznie dostępną bazę danych o epidemii, musiałem im ufać. Teraz zaczynam się zastanawiać, czy podawanie dalej oficjalnych danych nie zacznie niestety zakrawać na dezinformację.

Mapa ECDCKoronawirus. Polska szarą plamą na mapach europejskiej agencji. ECDC odpowiada

***

Michał Rogalski - analiza danych to jego pasja. Od początku pandemii prowadzi największą publicznie dostępną bazę danych o epidemii. Z jego pracy korzystają nie tylko tysiące obywateli dziennie, ale też dziennikarze, zespoły badawcze, czy uniwersytety. Zawodowo zajmuje się grafiką komputerową i marketingiem politycznym. Profil Michała Rogalskiego na Twitterze

Zobacz wideo Czy dobowe raporty Ministerstwa Zdrowia można uznać za rzetelne?