De citit/Aici ne aflăm azi! O analiză statistică a epidemiei COVID-19 în România în context global

De citit/Aici ne aflăm azi! O analiză statistică a epidemiei COVID-19 în România în context global

Citiți asta! A fost prezentată pe  Contributors.ro   de Ștefan Liiceanu.

Prezenta analiză se adresează îndeosebi cititorului care este familiarizat cu limbajul statisticii, cu descifrarea graficelor și a tabelelor. Sper că cei care vor întâmpina dificultăți în parcurgerea relativ aridă a analizei vor putea profita măcar de partea finală, de concluziile textului care urmează.

1. Câte cazuri de COVID-19 avem?

S-au scurs aproape două luni de la apariția primului caz COVID-19 înregistrat pe teritoriul României, timp în care numărul de persoane infectate anunțat de autorități a depășit nivelul de 11,000 de cazuri. Mai mult ca sigur această cifră este semnificativ mai mică decât cea reală având în vedere (1) capacitatea insuficientă de testare, (2) absența testării aleatorii, (3) existența pacienților asimptomatici care împrăștie virusul fără a fi conștienți, și (4) fluxul cetățenilor români de peste hotare care au tot revenit din zone ale Europei masiv afectate de COVID-19. Așa stând lucrurile, din păcate este imposibil de știut numărul precis de persoane infectate cu COVID-19 la noi în țară (ca și în alte țări, de altfel), mai ales în timp real. Tot ce avem este doar o cifră inexactă. Cu toate acestea, putem totuși ghici cât de cât gravitatea situației comparând condițiile din România cu cele din alte țări care și-au testat mai extensiv populația.

Dintre cei patru factori enumerați mai sus care influențează identificarea numărului de persoane infectate, pesemne că magnitudinea testării populației este cel mai important. Să luăm exemplul SUA. De la aproximativ “doar” 14 de mii de cazuri înregistrate pe data de 20 martie, această țară a confirmat până în prezent aproape un milion de persoane infectate, reprezentând o treime din toate cazurile din lume. Numărul de teste efectuate a crescut de la circa 140 de mii pe 20 martie la 5.4 milioane pe 27 aprilie (1.7% din populația țării). Aceasta înseamnă că testarea extensivă duce la identificarea a și mai multe cazuri de infectare, un lucru ce era de așteptat. Cu cât mai multe teste, cu atât mai multe cazuri identificate.

Acestă afimație poate fi mai riguros verificată dacă analizăm relația dintre (1) numărul de teste efectuate și (2) numărul de cazuri confirmate în urma acelor teste, în toate țările care au oferit statistici în acest sens (datele referitoare la aceste țări, în număr de 78, au fost agregate de societatea științifică Our World In Data, de la Universitatea din Oxford). Situația se vede cel mai limpede cu un simplu grafic, pe care îl prezentăm mai jos. Axa X reprezintă numărul total de teste efectuate până la data de 24 aprilie, iar axa Y numărul de cazuri confirmate, pe fiecare țară în parte (acestea sunt indicate ca puncte roșii). Întrucât este dificil să comparăm pe același grafic 5.4 milioane de teste din SUA cu, să zicem, doar 152 de mii de teste efectuate în Norvegia, am redus numărul de teste și numărul de cazuri la percentile, un mod convenabil de a normaliza datele.

Ce înseamnă aceasta? Dacă aranjăm numărul de teste efectuate pe țară de la mic la mare și atribuim fiecărui număr o valoare între 0 și 100 în funcție de importanța acestuia în toată populația de numere a testelor efectuate, atunci putem exprima numărul de teste ca percetilă, efectiv ca un scor între 0 și 100 (sau ca o notă între 0 și 10). Cum SUA a efectuat cel mai mare număr de teste din lume, scorul SUA la numărul de teste este 100. Tot așa, cum tot SUA are cel mai mare număr de cazuri COVID-19 confirmat, scorul SUA este, și la acest capitol, de 100 (deși aici, cu cât mai mic scorul, cu atât mai bine). Din acest motiv, poziția SUA în graficul de mai jos este în colțul din drepta sus, adică la punctul 100/100 (punctul albastru). Imediat în proximitatea poziției SUA sunt trei țări încercuite, țări care au testat foarte mult din populație și au avut și ele foarte multe cazuri COVID-19 identificate. Cum era de așteptat, aceste trei țări sunt Spania, Italia și Germania.

Graficul ne indică clar relația statistică lineară dintre numărul de teste și numărul de cazuri. Pe baza datelor celor 78 de țări se vede limpede că în general țările care au efectuat mai multe teste au descoperit mai multe cazuri de infectare cu noul coronavirus. Relația statistică dintre aceste două variabile este suficient de puternică.

Toate țările care se află sub linia statistică diagonală din grafic sunt țări care fie au facut multe teste dar au totuși puține cazuri, fie au facut puține teste dar comparativ cu alte țări au tot puține cazuri. În drepta jos putem observa poziția Vietnam-ului, cea mai “fericită” țară când vine vorba despre noul coronavirus. Vedem că numărul de teste are nota între 7 și 8 (scorul între 70 și 80), dar numărul de cazuri confirmate are nota de nici 1. Aceasta pentru că Vietnam a efectuat aproape 190 de mii de teste, ceea ce este mult la nivel global (cum spuneam, de nota 7-8) dar numărul de cazuri este infim, doar 268. Puțin mai la dreapta, în sus, se află Australia, țară care a efectuat mai multe teste decât Vietnam (circa 470 mii) dar a identificat mai multe cazuri de îmbolnăvire decât Vietnam (aproape 7,000). Din acest motiv poziția Australiei pe axa Y este mai înaltă față de cea a Vietnam-ului.

La polul opus, țările care se află deasupra liniei statistice sunt fie cele care au efectuat multe teste în urma cărora au confirmat multe cazuri, fie țările care au efectuat puține teste dar, relativ vorbind (altfel spus, comparat cu situația celorlalte 77 de țări), tot au multe cazuri. De exemplu, Anglia are o notă similară la teste cu Australia, aproape de 9 (Anglia a efectuat 425 mii de teste față de 470 mii în Australia), dar când vine vorba de numărul de cazuri identificate Anglia este mult deasupra liniei statistice, cu aproximativ 134 de mii de cazuri față de doar 7,000 în Australia.

Țara care o duce cel mai rău, observând aceste date, este fără îndoială Ecuador. Cu doar 23 de mii de teste efectuate, au fost identificate aproape 11 mii de persoane infectate! Acea țară din America de Sud a fost atât de grav afectată de pandemia COVID-19, încât familiile își lasă decedații în sicrie în fața casei pentru a fie ridicate de serviciile publice, întrucât firmele de servicii funerare nu mai fac față. De asemenea, guvernul a început să împartă familiilor sicrie din carton, conform unui reportaj CNN. Ceea ce este teribil, pe lângă tragedia socială prin care trece acea țară, este faptul că Ecuador este o țară situată la Ecuator (de unde și numele) și drept urmare are în permanență temperaturi ridicate (media anuală este de 28 de grade). COVID-19 nu pare a ține prea mult cont de temperatura exterioară, așa că ideea că venirea verii în România va eradica virusul nu pare prea credibilă, cel puțin considerând cazul Ecuadorului.

Revenind la Graficul 1, putem observa că România se află foarte aproape de linia statistică. România a efectuat în jur de 114 mii de teste, ceea ce reprezintă un scor de aproape 60. Pe de altă parte, numărul de cazuri confirmate la noi în țară are tot un scor de 60. Dacă România ar efectua mai multe teste, atunci, conform imaginii revelate de graficul de mai sus, numărul de persoane identificate cu COVID-19 ar fi cu siguranță mai mare. Dar cu cât mai mare este greu de spus pentru că relația dintre numărul de teste și numărul de cazuri identificate (rata de infecție) nu este perfect lineară. Comparația dintre Anglia și Australia ne-a arătat limpede acest lucru – numărul de cazuri este 20 ori mai mare în Anglia decât în Australia deși numărul de teste efectuat în cele două țări este asemănător.

Până în prezent, în România rata de identificare a infecției COVID-19, definită ca proporția dintre numărul de cazuri confirmate și numărul de teste efectuate, este de 8.6%. Cu alte cuvinte, fiecare 1,000 de teste au identificat 86 persoane infectate. În plus, după cum vom vedea mai jos, acest număr a fost stabil în prima parte a lunii aprilie, apoi în scădere moderată. Dacă am împinge lucrurile la o extremă, am putea spune că întrucât gradul de identificare a infecției pe baza testării a fost stabil la noi în țară, în jur de 8.6%, atunci, dacă toată populația ar fi testată peste noapte am avea în jur de 1.65 milioane de cazuri. Este bineînțeles enorm. În România s-au luat măsuri de stăpânire a virusului destul de repede, populația pare a fi conștientă de grozăvia acestei boli (mai ales după ce a văzut cum au decurs lucrurile în ograda surorii sale mai mari, Italia), și în plus multe dintre cazurile raportate au putut fi legate unele de altele, fiind focare de infecție testate mai extensiv și nu cazuri pur aleatoare. O testare complet aleatorie ar fi mult mai relevantă și pesemne că aceasta ar indica grade de infectare mai mici decât acel 8.6% observat. Din aceste motive, numărul de cazuri din România este clar mult mai mic. Dar nici atât de mic precum sugerează datele oficiale.

Pesemne că cea mai acceptabilă estimare a numărului real de cazuri din România ar fi cea derivată din experiența SUA și a Islandei – prima țară a testat cel mai mult ca număr absolut de cetățeni, cealaltă cel mai “adânc”, raportat la populație. SUA a efectuat cel mai mare număr de teste din lume, 5.4 milioane. În urma testelor s-a stabilit că există aproximativ 959 mii de cazuri de persoane infectate, adică 0.29% din populație. Pe de altă parte, Islanda este țara care și-a putut testa cel mai profund populația pentru că este vorba despre doar 339 de mii de locuitori. Cu 13.3% din populație fiind testată (cea mai mare pondere de teste la 100 de locuitori din lume), s-a ajuns la concluzia că 0.52% din locuitori aveau noul coronavirus. Așadar, aplicând aceste cifre în cazul României, am putea conchide că numărul real de cazuri ar fi între 0.29% și 0.52% din populație, adică între 56 de mii și 102 de mii. Luând o medie simplă, ajungem la cifra de aproximativ 79 de mii de cazuri. Acestă “best guess” este de șapte ori mai mare decât cifra anunțată oficial, dar nu pare deloc exagerată dacă ne amintim că testarea la noi în țară a decurs lent și nici nu a fost făcută aleatoriu.

După cum putem observa din Tabelul 1, România are o poziție codașă în rândul țărilor europene când vine vorba de numărul de teste efectuate la 1,000 de locuitori. Doar patru țări au avut un număr și mai mic de teste, și anume Serbia, Ungaria, Grecia și Bulgaria. Pe de altă parte, România nu stă atât de rău cu privire la numărul de cazuri confirmate per 100 de teste efectuate – 8.6, după cum menționam mai sus. Această cifră este sub media europeană de 12.8 cazuri la 100 de teste, și este clar mai încurajatoare dacă o comparăm cu nivelurile din Belgia (22.2) sau Franța (21.2), ca să nu mai spunem Anglia (31 de cazuri confirmate la 100 de teste!).

2. Despre rata de infecție COVID-19

Analiza de mai sus este utilă, dar ea nu ne indică decât faptul că (1) există clar o relație pozitivă între numărul de cazuri identificate și numărul de teste efectuate și că (2) rata de infecție (definită ca numărul de cazuri confirmate per 100 de teste efectuate) variază foarte mult de la o țară la alta. Pentru a avea o imagine completă, este necesar să vedem și evoluția în timp a acestei rate de infecție. Dacă ea a crescut în timp, atunci situația este gravă pentru că aceasta ar însemna că nu numai că un număr tot mai mare de teste a scos la iveală tot mai multe cazuri, dar noul coronavirus se propagă și mai repede. Una este să fie efectuate 100 de teste azi în urma cărora sunt identificate 10 cazuri de infecție, apoi să se repete cele 100 de teste peste X zile și să reiasă tot 10 noi cazuri de infecție, și alta este ca după X zile să reiasă nu 10 ci 30 de cazuri noi.

În anumite țări, rata de infecție a crescut la pas alarmant. Graficele 2 și 3, de exemplu, ne indică situația din SUA și Anglia. Acum aproximativ o lună, la fiecare 100 de persoane testate în SUA 12 erau descoperite a fi infectate cu noul coronavirus. În prezent, la fiecare 100 de persoane testate sunt identificate 18 cazuri de infecție. Aceasta înseamnă că testarea mai amplă descoperă noi cazuri, dar între timp noul coronavirus infecteză oricum tot mai multe persoane în SUA. Dacă virusul s-ar extinde la o rată constantă, s-ar fi vazut doar 12 persoane infectate la fiecare 100 de teste, indiferent de data testării și de numărul de teste efectuate, dar în realitate acest virus se propagă mult mai repede, o bună dovadă a gradului său diabolic de contagiozitate. Totuși, putem observa din Graficul 2 că măcar rata de infecție pare a se fi stabilizat în SUA, după marea creștere din perioada 20 martie-7 aprilie.

Situația este și mai gravă în Anglia, unde s-au efectuat până în prezent aproximativ 426 mii de teste, ceea ce reprezintă 0.6% din populație. Rata de confirmare a infecției în urma testelor din acea țară a crescut de la nici 5% pe 20 martie la 31.4% pe 23 aprilie! Alfel spus, dacă testele inițiale indicau că doar 5% din persoanele testate fuseseră infectate, acum ele arată că o treime din indivizii testați au contractat noul coronavirus. Cum Anglia a fost una dintre țările care au reacționat foarte lent la pandemie (abia pe 23 martie s-a impus carantina totală, deși cu zece zile înainte țara avea deja 500 de cazuri confirmate), această evoluție a situației nici nu este de mirare.

Dincolo de situația alarmantă din SUA și Anglia, putem remarca că gradul de confirmare a infecției la 100 de indivizi testați variază mult de la o țară la alta, fiind de doar 1.8% în Coreea de Sud, 12% în Elveția, 12.5% în Turcia, 8.7% în Japonia, 4.3% în Polonia, Germania 7%, Franța 21.2%, Belgia 22.7% etc. Media ponderată a ratei de infecție a celor 78 de țări era de 11.1% la data de 23 aprilie și de 12.8% pentru țările europene.

Cazul Italiei este foarte revelator. Această țară, efectiv îngenunchiată de COVID-19, a condus una dintre cele mai ample monitorizări a populației ca număr absolut de teste efectuate în Europa – aproape un milion și jumătate de teste efectuate până la data de 23 aprilie (2.4% din populație; pe locul întâi este Germania, cu puțin peste două milioane de teste, sau 2.5% din populație). După cum putem observa din Graficul 4 de mai sus, la finele lunii martie, din 100 de persoane testate circa 22 de italieni erau identificați cu noua boală, pe când în prezent acest important indicator a scăzut la 12, o dovadă încurajatoare că măsurile drastice de limitare a contactului social au început să dea roade.

În Graficul 5 putem observa evoluția gradului de identificare a infecției în perioada 20 martie-23 aprilie în România. Precum în alte țări, acest indicator a crescut și la noi pe măsură ce epidemia a luat amploare, de la puțin peste 3% la aproape 10% la jumatea lunii aprilie. Dar măcar el nu a crescut la fel de vertiginos precum în SUA sau Anglia și, cu o valoare prezentă de 8.6%, se situează sub media europeană de 12.8% menționată mai sus. În plus, este de remarcat faptul că din 4 aprilie rata de infecție din România a intrat într-un declin modest, ceea ce ne poate da speranța că măsurile de distanțare socială sunt eficiente în combaterea epidemiei. În ultimele trei săptămâni fiecare testare a 100 de persoane a scos la iveală în jur de 9 cazuri noi și atâta tot.

3. Evoluția epidemiei COVID-19 în România

Estimarea numărului de persoane infectate cu noul coronavirus este importantă pentru a înțelege magnitudinea problemei și provocărilor sociale, dar poate și mai importantă este viteza de propagare a virusului sau trendul acestuia în timp. Cu ajutorul unor simple tehnici statistico-matematice, putem estima această viteză de extindere a COVID-19 la noi în țară pe baza datelor oficiale difuzate până în prezent, cât de influențate or fi acestea de capacitatea de testare. Cât de rapidă este această viteză, dacă se poate spune așa, este mică, medie, mare, exponențială etc? Câte cazuri de COVID-19 vom vedea în luna mai dacă lucrurile continuă să evolueze precum în ultima lună și jumătate? Când ar putea avea loc cel mai probabil mult-așteptatul vârf al epidemiei? La aceste întrebări vom încerca să răspundem în rândurile de mai jos.

Multe procese din lumea naturală, de la creșterea unei colonii de bacterii până la răspândirea COVID-19, procese care implică schimbare continuă de-a lungul timpului, pot fi descrise cu ajutorul unui tip sau altul de funcție matematică, unele mai simple, altele mai complexe. Există o sumedenie de funcții (lineare, polinomiale, logaritmice etc) și provocarea oricărui statistician este aceea de a identifica funcția care surprinde cel mai fidel dinamica procesului din natură analizat (evoluția epidemiei HIV din SUA anilor 1980, de exemplu, a fost bine capturată prin estimări pe baza funcțiilor polinomiale). Noul coronavirus nu s-a propagat într-un mod haotic ci conform unui proces natural care urmează niște legi de bază. Dacă răspândirea virusului ar fi fost un proces haotic, am vorbi de 5 cazuri noi astăzi, 599 mâine, 40 poimâine, 2,000 răspoimâine, bref cifre complet aleatoare și ca atare inutile pentru orice încercare de a efecuta prognoze.

În realitate, după o perioadă de circa două saptămâni de creștere modestă, numărul cumulativ de cazuri COVID-19 din România a urmat până în prezent o curbă ascendentă foarte clar definită. În presă s-a vorbit despre o creștere exponențială a numărului de cazuri cu noul coronavirus, dar acestă afirmație nu este tocmai exactă – creșterea exponențială presupune o dublare a unui număr oarecare cu fiecare unitate de timp adițională. Cu alte cuvinte, dacă azi am avea 300 de cazuri noi COVID-19, ne-am aștepta ca mâine să vedem 600 de cazuri, poimâine 1,200, răspoimâine 2,400 și tot așa. Dacă creșterea în noile cazuri confirmate zilnic ar fi fost exponențială, de la un caz în prima zi am ajunge la peste 134 de milioane de cazuri după doar patru săptămâni! Așadar, la nivel de zile, creșterea în cazuri COVID-19 din România nu a fost exponențială.

Pe de altă parte, pe intervale de timp săptămânale, creșterea în numărul de cazuri coronavirus a fost mai mult decât exponențială toată luna martie (tipic pentru o epidemie), după cum putem vedea în Tabelul 2 de mai jos. În a doua săptămână a lunii martie, numărul de cazuri confirmate a crescut de peste zece ori față de săptămâna precedentă, apoi a crescut de 2.4 ori, apoi de 4.5 ori, mult mai rapid decât dublarea de la un interval la altul pe care o presupune creșterea exponențială. O veste binevenită este însă faptul că din săptămâna 30 martie-5 aprilie numărul de cazuri a crescut tot mai lent de la o săptămână la alta, iar în ultima saptămână, pentru prima oară de la începutul epidemiei, numărul de cazuri noi a scăzut – nu cu mult, doar cu 6% față de săptămâna precedentă, dar măcar nu a crescut!

Putem privi informația cazurilor de coronavirus din România din două perspective: (1) numărul zilnic de cazuri noi înregistrate, și (2) numărul cumulativ de cazuri de la începutul epidemiei și până la o dată oarecare, exprimat și acesta cu frecvență zilnică. Bineînțeles, este vorba despre una și aceeași informație, numărul cumulativ fiind derivat din numărul zilnic de cazuri noi. Cifrele referitoare la cazurile noi de coronavirus sunt mai ușor de digerat pentru mintea umană întrucât putem lesne identifica zilele cu foarte multe cazuri, zilele cu cazuri mai puține, putem intui oarecum și dacă epidemia ia avânt sau se domolește. Graficul 6 de mai jos ilustrează numărul de cazuri noi anunțate zilnic de la începutul epidemiei COVID-19 în România.

Putem remarca că o mare schimbare a survenit în săptămâna 23-29 martie, săptămână în care au fost raportate 1,327 de noi cazuri față de 294 de cazuri în cele șapte zile precedente. De asemenea putem observa că ziua cea mai “neagră” până în prezent a fost 11 aprilie, când au fost raportate 523 de noi cazuri. Practic într-o singură zi s-au înregistrat mai multe cazuri decât în primele trei saptămâni ale lunii martie la un loc!

Spre deosebire de cifrele privitoare la cazurile depistate zi de zi, cifrele cumulative ne arată mai clar trendul general al epidemiei COVID-19 (Grafic 7). Putem astfel observa că până pe 23 martie numărul de cazuri creștea moderat, apoi, parcă din senin, lucrurile au luat amploare. Ne putem imagina o linie care reflectă creșterea în numărul de cazuri cumulative COVID-19 de la începutul lunii martie și până pe 23 martie. Această linie are un unghi de circa 22 grade, cu alte cuvinte o pantă destul de lină. Aceeași linie, începând de pe 23 martie și până pe 27 aprilie are un unghi de aproximativ 71 de grade – ceea ce înseamnă că viteza de propagare a noului coronavirus efectiv s-a triplat în ultimele cinci saptămâni, față de situația din cele trei săptămâni premergătoare (ceva ce nu poate fi văzut cu ochiul liber doar uitându-ne la graficul cu cazurile noi zi de zi). Este precum am urca un deal blând, apoi urcăm un deal de trei ori mai abrupt.

De ce data de 23 martie a fost un punct de cotitură este o întrebare interesantă. Un prim răspuns este faptul că numărul de teste efectuat zilnic a crescut semnificativ, de la o medie de 1,236 pe zi în perioada 21-25 martie, la o medie de 3,855 pe zi în luna aprilie (practic numărul de teste s-a triplat). Dar această creștere în numărul de teste explică statistic doar 60% din creșterea în numărul de cazuri identificate. Nu este ca și cum fiecare 100 de teste adițioanale identifică un număr fix de persoane infectate. În realitate, după cum am observat mai devreme, numărul de persoane identificate a fi infectate per 100 de teste noi a crescut semnificativ până la începutul lunii aprilie, ceea ce însemnă că creșterea în numărul de cazuri identificate zilnic în general este explicată și de testarea mai activă dar și de răspândirea fundamentală a virusului.

Revenind la Graficul 7, putem observa că numărul cumulativ de cazuri COVID-19 din România a urmat până în prezent o curbă ascendentă mai degrabă decât cele două linii imaginare menționate mai sus. Aceasta este pentru că extinderea epidemiei nu a fost un proces linear. Dacă evoluția infecției ar urma linia din 23 martie și până în prezent, atunci la jumătatea lunii mai ne-am aștepa să observăm un total de 17,000 de cazuri confirmate, iar la finalul lunii mai puțin peste 22,000 de cazuri. Dar cum traiectoria epidemiei a fost o curbă ascendentă, este posibil ca aceste niveluri de îmbolnăviri COVID-19 să fie observate ceva mai devreme.

4. Ce funcție matematică surprinde cel mai corect evoluția epidemiei în România până acum?

Cum estimăm curba matematică din spatele procesului de extindere COVID-19 în România, pe baza informației disponibile în prezent? Funcția care pare a surprinde cel mai corect evoluția acestui fenomen este așa-numita funcție putere. Aceasta are forma Y=aXb, unde Y poate reprezenta numărul de cazuri cumulative de coronavirus într-o anumită zi, iar X este efectiv indicele timpului. Putem considera că începutul epidemiei COVID-19 a avut loc pe data de 2 martie când erau confirmate doar 3 cazuri. Aplicând funcția putere datelor existente, pe data de 2 martie avem Y=3 și X=1, fiind vorba de prima zi. A doua zi, pe 3 martie, fuseseră confirmate 4 cazuri, deci Y=4, și fiind vorba despre a doua zi a epidemiei, X=2. Și tot așa. În data de 27 aprilie au fost 11,339 de cazuri confirmate și începând numărătoarea zilelor scurse de pe 2 martie, data de 27 aprilie reprezintă a 57-a zi. Deci, Y=11,339 și X=57.

Tot ce trebuie să facem este să găsim valorile parametrilor a și b din ecuația de mai sus astfel încât diferența totală dintre curba obținută pe baza acestor parametri și curba de cazuri observată empiric să fie minimă. Sunt multe posibile valori pentru parametrii a și b care să creeze o curbă ascendentă foarte similară cu cea din Graficul 7, dar există un singur set de acești doi parametri care aproximează cel mai corect situația reală. În Graficul 8 de mai jos arătăm curba obținută prin calibrarea datelor de cazuri la funcția putere pe baza informației zilnice dintre 2 martie și 26 aprilie. Se vede cu ochiul liber faptul că numărul de cazuri cumulativ și curba obținută sunt aproape identice (corelația este de 99.5%). Curba aceasta are parametrii a=0.75 și b=2.5.

Marea întrebare este însă, în ce măsură această curbă prezice corect viitorul. Acum că avem parametrii curbei, putem extrapola oricâte zile în viitor dorim și vom ști cam câte cazuri vom fi văzut dacă procesul de propagare a virusului rămâne neschimbat (acesta este “un mare dacă”). Curba estimează aproape 25,000 de cazuri pe 15 mai și puțin peste 40 de mii de cazuri la finalul lunii mai (notă: aceste cifre sunt bazate pe datele oficiale care sunt influențate de capacitatea de testare; după cum am discutat mai devreme, numărul real de cazuri este mai probabil de 5-10 ori mai mare decât cel oficial și din acest motiv prognozele pe baza curbei putere ar trebui înmulțite cu un factor de măcar 5).

Întrucât propagarea noului coronavirus în societate este un proces dinamic, mereu în mișcare, pe măsură ce timpul curge, parametrii funcției putere estimați pe baza datelor de la începutul epidemiei și până la un anume punct în timp încep inevitabil să dea greș în prognozare, în sensul că ori supraestimează situația reală (adică indică tot mai multe cazuri decât cele raportate oficial; asta ne dorim, semnificând o decelerare a epidemiei), ori o subestimează (indică mai puține cazuri decât în realitate; asta clar nu ne dorim, implicând o accelerare a epidemiei). Acesta nu este neapărat un neajuns cât o realitate statistică – viitorul nu este niciodată perfect identic cu trecutul și cu cât prognozăm viitorul mai îndepărtat pe baza unui trecut fix cu atât eroarea estimării devine mai mare în timp. Din acest motiv, unii statisticieni preferă să sacrifice viziunea pe termen mediu-lung pentru exactitatea prognozei pe termen scurt. De exemplu, cercetătorii de la renumita universitate Imperial College London publică în fiecare săptămână prognoze legate de decesele cauzate de noul coronavirus, fereastra de timp pentru prognoză fiind de doar șapte zile. Dar aceasta nu este o prognoză de mare ajutor, oricât de exactă ar fi ea.

Curba estimată mai sus cu siguranță nu va mai fi de folos la un moment dat doar și pentru că ea presupune o creștere necontenită a fenomenului analizat (dacă lucrurile ar demerge exact precum în ultimele 57 de zile și curba identificată ar fi valabilă până la finalul lunii iulie, atunci în acel punct din timp am vedea teoretic 145 de mii de cazuri, ceva puțin probabil). În realitate, având în vedere faptul că autoritățile din România au adoptat relativ timpuriu diverse măsuri de urgență, inclusiv importanta distanțare socială, mai degrabă numărul de infecții se va opri din creștere, apoi va scădea. De fapt, după cum vom vedea în rândurile următoare, epidemia deja dă semne clare de plafonare.

5. Când putem aștepta vârful epidemiei în România?

Deși numărul de cazuri noi raportat zilnic a fost în creștere în ultimele saptămâni, timp în care a existat și ziua de 11 aprilie cu un maxim de 523 de cazuri raportate, este esențial de remarcat că această creștere este mai lentă decât cea de până la începutul lunii aprilie. De fapt, dacă am fi calculat parametrii funcției putere pe baza datelor dintre 2 martie și 4 aprilie, atunci acea curbă ar fi supraestimat numărul de cazuri observat empiric în perioada de după 4 aprilie. Mai precis, ea prognoza aproximativ 14 mii de cazuri la data de 18 aprilie când de fapt numărul de cazuri total nu era de nici 9 mii la acea dată. Aceasta înseamnă că din luna aprilie procesul de propagare a noului coronavirus a început deja să încetinească substanțial, o veste bineînțeles foarte bună.

Dacă presupunem, în mod foarte plauzibil, că numărul de cazuri nu va crește tot mai mult în timp precum sugerat de funcția putere, ci mai degrabă el se va stabiliza și apoi va descrește (cu alte cuvinte epidemia se termină, mai devreme sau mai târziu), atunci putem estima vârful epidemiei pe baza evoluției ratei de creștere în numărul de cazuri zilnice.

Graficul 9 ilustrează numărul de cazuri noi raportate zilnic (linia roșie) și, pentru a vedea mai clar trendul, media mobilă pe 7 zile a numărului de cazuri (linia neagră). Media mobilă este metodă statistică de bază, simplă și fiabilă, pentru a elimina elementul aleatoriu din date și a rămâne doar cu trendul inerent. Cum calculăm media mobilă? Extrem de simplu – de exemplu, la data de 22 aprilie media mobilă pe 7 zile era pur și simplu media aritmetică a numărului de cazuri înregistrate în ultimele 7 zile, incluzând data de 22 aprile (adică media pe zilele 16-22 aprilie). A doua zi, pe 23 aprilie, media mobilă era media aritmetică a numărului de cazuri raportat în zilele 17-23 aprilie. Și tot așa. Media mobilă calculată pe perioada 14 martie-27 aprilie ne indică că numărul de cazuri noi s-a stabilizat, între 300 și 400 de cazuri pe zi. Au existat și zile cu 200 de cazuri și zile cu mai mult de 400 de cazuri, dar în general se vede limpede că numărul de cazuri nu mai crește vertiginos, ci este mai degrabă static (de menționat că diferența dintre cazurile zilnice și media mobilă este complet aleatorie, pe baza unui test statistic, așadar media mobilă își îndeplinește cu succes rolul de a elimina ”zgomotul” statistic și de a revela esența situației; de asemenea, este foarte interesant că această diferență nu este corelată cu numărul de teste zilnic – altfel spus, vârfurile în cazurile zilnice identificate nu se datorează neapărat testării mai ample în acele zile și vice-versa).

Urmărind ideea că numărul de cazuri zilnice nu mai crește ca în trecut, ba chiar crește din ce în ce mai lent, putem prognoza evoluția viitoare a numărului de cazuri estimând curba de creștere. În Graficul 10, putem observa creșterea procentuală zilnică în numărul de cazuri cumulativ (linia albastră), creștere calculată precum mai sus ca medie mobilă, pentru a reduce datele la trendul fundamental. La mijlocul lunii martie, numărul de cazuri total creștea abrupt, cu o medie de până la 40% de la o zi la alta. Ulterior, rata creșterii a scăzut aproape constant, până la nivelul de 3.4% în prezent. Altfel spus, procesul de propagare a noului coronavirus la noi în țară a decelerat tot mai mult.

Dacă estimăm curba ratei de creștere pe baza unei funcții logaritmice, atunci putem avea o idee despre cât de mare va fi această rată în viitorul apropiat și, implicit, evoluția numărului de cazuri zilnice. Linia roșie din grafic este precis această curbă estimativă, curbă care are un grad de similaritate cu datele observate empiric de aproape 95%. După cum spuneam, în prezent numărul de cazuri total crește cu aproximativ 3.4% de la o zi la alta. Curba estimativă ne indică că rata creșterii zilnice va fi de 2% pe 7 mai, 1% pe 20 mai și doar 0.5% la începutul lunii iunie. Teoretic, în luna iunie s-ar înregistra doar câteva cazuri pe zi, nu sute precum în prezent.

Pe baza curbei creșterii în numărul total de cazuri, în Graficul 11 ilustrăm evoluția numărului de cazuri până la data de 27 aprilie și prognoza până la finalul lunii mai (datele fiind exprimate ca medie mobilă pe 7 zile). Acest grafic ne arată că vârful epidemiei este în derulare și că numărul de cazuri zilnice ar urma să scadă din prima săptămână a lunii mai. La jumătatea lunii mai ne așteptăm să vedem o medie de 200 de cazuri noi pe zi, iar la finalul lunii mai aproximativ 100 de cazuri noi pe zi.

Cum se compară această prognoză cu cea pe baza funcției putere ilustrată în Graficul 5 și care prognoză este mai realistă? După cum am discutat mai sus, funcția putere, care surprinde foarte corect evoluția epidemiei în România până în prezent, presupune că propagarea virusului continuă cu aceeași viteză ca în trecut, în speță în primele opt săptămâni de la începutul epidemiei. Dar din analiza trendului în numărul de cazuri noi și a ratei de creștere în numărul de cazuri cumulative, este limpede că de trei săptămâni încoace epidemia a încetinit semnificativ.

Mai mult ca sigur prognoza pe baza funcției putere va supraestima tot mai mult numărul de cazuri pe măsură ce avansăm în timp. După cum putem observa în Tabelul 3, funcția putere prevede 27 de mii de cazuri pe 18 mai, pe când prognoza pe baza ratei de creștere în numărul cumulativ de cazuri indică un total de puțin peste 17 mii de cazuri. A doua prognoză este mult mai realistă pentru că ea ia în calcul dinamica procesului de propagare a COVID-19, pe când prima este prea agresivă întrucât, deși rezumă corect ce s-a întâmplat în ansamblu până acum, nu reflectă schimbarea foarte favorabilă care a avut loc în ultimele trei săptămâni.

O altă concluzie importantă în urma prognozei este faptul că deși ne așteptăm ca numărul de noi cazuri identificate zi de zi să scadă, în jurul a 200 de cazuri pe zi la jumătatea lunii mai, acesta nu este un motiv de relaxare. Lucrurile pot scăpa de sub control dacă relaxarea măsurilor anti-coronavirus nu sunt gândite foarte atent, după cum avertiza și medicul epidemiolog Adrian Pană într-un interviu HotNews din 27 aprilie. Și oricum, ne aflăm pe un teren nesigur întrucât până la urmă cât de bine percepem gravitatea situației depinde de numărul de teste efectuate.

6. Care este situația globală?

O analiză a epidemiei COVID-19 în România ar fi incompletă dacă nu am privi lucrurile și în context global. Cum ne putem face o imagine de ansamblu a evoluției pandemiei și unde se situează România în această imagine? Pentru a răspunde la aceste două simple întrebări, analizăm evoluția cazurilor zilnice din toate țările care în prezent au cel puțin 1,000 de cazuri confirmate. Numărul acestor țări este de 84 și ele sunt dispersate geografic pe toată suprafața globului.

Înainte de toate, să privim situația globală. În Graficul 12 este ilustrată evoluția numărului de cazuri zilnice agregate a tuturor țărilor afectate de noul coronavirus. De la o medie de 10,000 de cazuri raportate pe zi la jumătatea lunii martie infecția a luat o amploare uriașă ajungând în doar trei săptămâni la un nivel de opt ori mai mare. Este interesant de remarcat că explozia de infecții a avut loc în perioada 9-29 martie, interval în care 64 de țări din cele 84 analizate au început să raporteze un minim de 100 de cazuri. Practic acele trei saptămâni sunt săptămânile care au schimbat fața planetei. Alte 15 țări se aflau în acea situație deja din perioada 17 februarie-8 martie. După data de 11 aprilie, numărul de cazuri zilnice a fost practic neschimbat, în jurul nivelului de 80,000, dându-ne speranța că la nivel mondial s-a atins vârful pandemiei.

Din păcate însă, cifrele globale sunt puternic influențate de condițiile din SUA, țară care reprezintă o treime din toate cazurile COVID-19. Eliminând datele din SUA (și cele ale Chinei care nu se știe cât de corecte sunt), imaginea se schimbă după cum putem observa în graficul alăturat, Graficul 13. Curba pandemiei pare similară, dar de pe 11 aprilie până în prezent numărul de cazuri raportat zilnic a fost în creștere, în medie cu 0.4% de la o zi la alta. Nu este o creștere foarte mare – de la 48,000 cazuri pe zi pe 9 aprilie la 51,250 cazuri pe 25 aprilie – dar este totuși o creștere. Cu alte cuvinte, toate țările excluzând SUA și China au în continuare, în ansamblu, mai multe cazuri de la o zi la alta.

Această privire de ansamblu a situației globale este revelatoare, dar și mai utilă ar fi o analiză a situației pe țări individuale întrucât condițiile infecției sunt foarte diferite de la o țară la alta. În acest scop, am construit un simplu algoritm de clasificare a celor 84 de țări în trei grupe majore și anume (1) ”epidemia continuă”, (2) ”vârf depășit” și (3) ”vârf iminent”. Clasificarea aceasta se bazează pe trendul în numărul de cazuri zilnic din ultimele trei săptămâni, ultimele două săptămâni și ultima săptămână. Această combinație de trei trenduri ne arată tiparul evoluției epidemiei pe fiecare țară și ne permite clasificarea calitativă de mai sus. Țările care intră în categoria ”epidemia continuă” sunt acele țări ale căror număr de cazuri este în creștere în cel puțin două dintre cele trei intervale menționate (luăm în calcul și magnitudinea creșterii). Țările care intră în categoria ”vârf depășit” sunt acele țări ale căror număr de cazuri este în scădere în cel puțin două dintre cele trei intervale menționate, unul dintre ele fiind intervalul de trei săptămâni. Finalmente, țările din categoria ”vârf iminent” sunt acele țări ale căror număr de cazuri este foarte puțin în creștere în ultimele trei săptămâni dar în scădere semnificativă în ultimele 1-2 săptămâni, sau numărul de cazuri este în mare neschimbat în intervalele de timp luate în considerație etc. (sunt mai multe posibilități aici, dar nu are sens să intrăm aici în detaliile algoritmului de clasificare).

În Tabelul 4 prezentăm rezultatele clasificării. Observăm că situația este foarte polarizată în sensul că în 43% din țările analizate epidemia continuă pe când în 41% din țări vârful a fost depășit. În doar 16% din țări, inclusiv România, cel mai probil vârful este atins în prezent sau iminent. Și mai grav este faptul că țările în care epidemia continuă sunt și cele mai populate – ele au în ansamblu 52% din populația celor 84 de țări analizate, pe când țările care au depășit vârful epidemiei reprezintă doar 35% din acea populație. Aceasta însemnă că pandemia are mare potențial să continue luni de zile mai ales că multe dintre țările din categoria ”epidemia continuă” sunt fie țări în curs de dezvoltare fie țări sărace.

Pentru cei interesați, în Tabelul 5 prezentăm situația COVID-19 pe fiecare țară. Coloana “DATA” se referă la data de la care o țară a înregistrat cel puțin 100 de cazuri, iar coloana “NR. ZILE” indică numărul de zile scurs de la acea dată până la 25 aprilie. Finalmente, la finalul acestui raport ilustrăm evoluția numărului de cazuri zilnic pentru fiecare țară dintre cele analizate, aceste cifre fiind prezentate ca medie mobilă pe șapte zile.

7. Concluzii

  1. La nivel global, pandemia încă nu dă semne de ameliorare, deși creșterea numărului de persoane infectate nu mai este atât de acută față de luna martie. Situația de la o țară la alta este foarte diferită. Există țări care abia în prezent încearcă să stingă ”incendiul” COVID-19, dar și țări care clar au depășit vârful crizei. Este o situație de tipul “fiecare cu norocul lui.” În aproape jumătate din cele 84 de țări analizate, țări care au un minim de o mie de cazuri raportate, epidemia continuă neabătut.
  2. În mod neașteptat, acest virus nou a scos la suprafață și personalitatea țărilor răzlețe (=”nu ne pasă, noi suntem speciali”). Există țări încăpățânate, încremenite în valoriile proprii, care preferă strategia struțului cu capul în nisip și acum plătesc prețul – cel mai bun exemplu fiind Suedia și Anglia. Suedia se comportă ca și cum nu s-a întâmplat nimic și în consecință numărul de cazuri zilnice în acea țară a crescut de la 160 pe zi la finalul lunii martie la 600 în prezent, fără a da semne de încetinire, în timp ce situația în alte țări europene care au luat în serios pandemia este către mai bine. Anglia s-a mișcat încet și de la identificarea a 5 persoane infectate la 100 de teste efectuate la jumătatea lunii martie a ajuns la 31 de persoane confirmate a fi purtătoare de COVID-19. În prezent Anglia are cea mai mare rată de infecție din Europa.
  3. Țările europene puternic afectate de noul virus, în speță Italia, Spania, Franța și Germania, par să fi trecut de vârful pandemiei, deși în cifre absolute numărul de cazuri noi zilnice tot este enorm – în medie 3,000 în Italia, peste 4,000 în Spania, 2,000 în Franța și aproximativ 2,000 în Germania. În nici un caz drama COVID-19 nu s-a încheiat, doar că nu mai este la fel de intensă precum acum câteva săptămâni.
  4. România are peste 11 mii de cazuri confirmate, ceea ce o plasează exact la jumatea listei a 84 de țări cu cel puțin o mie de cazuri în prezent (a se vedea Tabelul 5). Dar foarte probabil numărul real de infecții este de 5-10 ori mai mare decât cel oficial. Cu toate acestea, România pare să fi ajuns la vârful crizei. Estimăm o scădere în numărul de cazuri din luna mai, însă nu o scadere spre zero decât din luna iulie. Aceasta înseamnă că vom trăi cu măști și mânuși o bună perioadă de timp și cât de repede va relaxa guvernul măsurile anti-coronavirus va decide și cât timp vom mai petrece în umbra COVID-19, în absența unei scheme de tratament coerente sau a unui vaccin. Prognozăm în medie 200 de cazuri noi pe zi la jumătatea lunii mai (pe baza metodologiei de testare oficială), ceea ce reprezintă circa 50% din cazurile înregistrate în prezent. Din păcate, aceste cifre nu permit relaxarea măsurilor de distanțare socială și mobilitate prea mult, altfel riscăm să o luăm de la capăt și există țări care ar fi putut spune că depășiseră vârful crizei, și care ulterior au înregistrat și mai multe cazuri (Africa de Sud, Armenia) sau o revenire periculoasă a infecției (Ungaria, Finlanda).
  5. Până la fabricarea unui vaccin, cel mai mare risc nu mai este virusul în sine ci revenirea pripită la modul de viață de dinaintea pandemiei. Presiunea pe guverne să relaxeze chibzuit măsurile de carantină și izolare socială în timp ce repornesc economiile naționale va fi enormă.
  6. Contagiozitatea acestui nou virus a fost atât de mare încât în spațiul câtorva săptămâni el a adus în haos întreaga planetă. Strategia de a pune punct pandemiei pare a fi tot mai puțin stăpânirea virusului prin măsuri drastice de distanțare socială și tot mai mult fabricarea unui vaccin. Dar pe moment, până la fabricarea unui vaccin, măsurile de izolare rămân foarte importante.

Descarca document cu situatia evolutiei COVID-19 in 84 de tari.

  Citeste intreg articolul si comenteaza pe contributors.ro


Citește și:

populare
astăzi

1 După chestia asta Geoană e out! Cine urmează?

2 „Na, că ți-am arătat și țâțele de bucurie”

3 Văduva lui Prigoană, Mihaela Botezatu, i-a dat o veste proastă Adrianei Bahmuțeanu: „Copiii nu vor să o vadă”

4 Care o fi faza cu știrea asta?

5 Hm! Pe asta o știați?