Altri Economisti » Selezione della Settimana

Attenzione alla mescolanza degli indici: come gli indicatori epidemici li smentiscono completamente, di Branko Milanovic (dal blog di Milanovic, 22 gennaio 2021)


Friday, January 22, 2021

Beware of mashup indexes: how epidemic predictors got it all wrong

Branko Milanovic  

zz 899

In October 2019, the Johns Hopkins University’s Bloomberg School of Public Policy, Nuclear Threat Initiative, and the Economist Intelligence Unit published, with significant publicity, the first World Health Preparedness Report and Global Health Security Index. It claimed to study the degree of readiness to confront epidemics country-by-country. In a report of 324 pages (in addition to a Website that allows to explore individual countries), the authors used six dimensions (or categories) to assess countries’ overall preparedness: prevention of the emergence of pathogens, early detection, rapid response, robustness of the health system, commitment to improving national health capacity, and overall (country’s) risk environment. The six categories themselves were built from 34 indicators, 85 subindicators and 140 questions. The authors then combined these six dimensions into an overall score, the index of Global Health Security (GHS). In this blog I shall be referring to that index.

The GHS index ranked 195 countries according to the number of points they have obtained from all the categories. The range was theoretically from 0 to 100, but the actual range went from 16.5 (the least prepared country; Equatorial Guinea) to 83.5 (the best prepared). The three top countries were the United States, UK, and the Netherlands.

As the “luck” would have it less than two months after the publication of the first global preparedness index, covid-19 struck the world with an unusual ferocity. So it is reasonable to ask how the experts’ judgments about various countries’ preparedness look compared to the actual outcomes in the fight against covid-19. For the latter, we use the number of covid-19 death per million inhabitants as of January 21, 2021. The data are collected from Worldometer. The death data are subject to many issues, from underestimation in many countries (as shown by the alternative statistic of excess deaths) to less frequent but possible overestimation. I will address these issues briefly below, and it will be indeed interesting to contrast GHS index with excess death data too.

If GHS were to predict the outcomes of covid well, we would expect that countries with a high score would have lower rates of fatalities. Or alternatively, we could disregard the cardinal measurement, and look at the ranks where we would expect that higher ranked countries according to GHS would be also higher ranked in terms of how successful they are in fighting the virus (i.e., they would have relatively fewer fatalities). The second comparison is in some sense better because its requirements are less: it requires that GHS has broadly gotten correct the ranking of countries, not necessarily that it has successfully captured the absolute differences in outcomes.

Finally, note that GHS in principle already includes all information thought relevant for combating the pandemic. Thus adding to it factors that we believe might explain the outcome is inconsistent. Whatever experts believed was relevant was, by definition, included in the GHS index. Our objective in thus to test how successful were experts in choosing the relevant factors, in assigning them the correct weights, and coming up with an overall index.

The answer is striking. The GHS index is not only unable to predict outcomes, that is, is not only orthogonal (unrelated) to the outcomes, but its rankings were often the inverse of the currently observed success rankings.  The two graphs below show the results. The graph on the left shows that GHS index is positively related to the rate of deaths—the very opposite of what we expect. The graph on the right shows that high ranked countries, like No. 1, the United States, No. 2, the UK, or No. 3, the Netherlands, are among the worst performers. Had the index got rankings correctly, we would have expected a 45 degree positively sloped line. On the contrary, we see that the US is ranked 145th (out of 153 countries) according to its fatality rate: the difference between its predicted and actual rank is 144 positions! The UK, ranked by the preparedness index as the second best, is 149th according to the actual outcomes.

zzz 87

For many rich countries, the gaps in ranks between the predicted and observed performance are enormous: to give a few examples, for France 124 positions, Italy 119 positions, Canada 99 positions, Germany 97 positions. On the other hand, many countries’ performances were much better than experts predicted: Vietnam was ranked No. 47, but in terms of performance it is No. 4; China 48 and 8; Cuba 95 and 19. There are thus many glaring discrepancies: Thailand and Sweden are ranked next to each other: the first recorded 1 death per million, the second 1078. Singapore and Argentina are also ranked together: Singapore had 5 deaths (per million), Argentina 1020. Several dozens similar comparisons can  easily be made.

The exercise unmistakably shows that the predicted outcomes were far different (in some cases, the very opposite) of the actual outcomes. There are two possible defenses that the authors of the index can make.

First, it is very likely that the relative fatalities are mismeasured. But that argument is weakened by the fact that the differences in death rates between good and bad performers are enormous. They are often several orders of magnitudes different: the deaths per one million were (as of January 21, 2021), 1266 in the USA, 1 in Thailand, 3 in China, 16 in Cuba. However, mismeasured deaths are in the latter three countries, they cannot be underestimated by 1200+ times in Thailand, 400 times in China, or 80 times in Cuba. Moreover, for the index to make sense, equalizing China, Thailand and Cuba with the US, UK and the Netherlands is not enough: one would need to show that China, Thailand and Cuba did (as the index predicted) much worse—so the death mismeasurement requirements become truly astronomical. Thus, the exercise that might use excess death rates instead of reported deaths is almost certain to find the same lack of correlation between predicted and actual outcomes.

The second defense is that the predictions made here referred in general to epidemics, while covid-19 is a very specific epidemic that tends to be much more fatal for the elderly or obese population. According to that argument, had the authors known the characteristics of covid-19, they would have produced a better GHS index. This is quite possible. But that belies the very idea underlying the index. If each epidemic is very idiosyncratic, then what is the purpose of having a general GHS index? Suppose that the next epidemic kills people with blue eyes. Since we do not know that such an epidemic will happen, what useful information can be gleaned from GHS index? We could then as reasonably make an altogether random ranking of countries—if each epidemic is entirely specific and its effects cannot be forecast.

There is thus no escape from a sad conclusion that an index whose objective was to highlight strengths and weaknesses in the handling of potential epidemics has either entirely failed, or can be shown to have been useless. One can choose one or other of these two, equally damning, conclusions. But we should also make two additional points. First, study the (few) cases where the index successfully predicted the performance (they are in the SW corner of the second graph: Thailand, Australia, Singapore, Japan, Korea). Second, be wary of similar indexes that are produced for other variables like corruption, transparency in government, and the like. They too look “reasonable” until confronted by reality and may just reflect experts’ echo chamber thinking.


Attenzione alla mescolanza degli indici: come gli indicatori epidemici li smentiscono completamente,

di Branko Milanovic


Nell’ottobre del 2019, la Scuola di Scienze Politiche Bloomberg dell’Università John Hopkins, l’Iniziativa sulla Minaccia Nucleare e la Intelligence Unit di The Economist pubblicarono, con una pubblicità rilevante, il primo Rapporto sulla Preparazione Sanitaria del Mondo e l’Indice sulla Sicurezza Sanitaria Globale. Esso proponeva uno studio sul grado di prontezza, paese per paese, nell’affrontare le epidemie. In un rapporto di 324 pagine (in aggiunta ad un sito web che permette di esplorare i paesi singoli), gli autori usavano sei dimensioni (o categorie) per stimare la preparazione complessiva dei paesi: la prevenzione delle emergenze dei patogeni, il loro pronto riconoscimento, la rapidità della risposta, la solidità del sistema sanitario, l’impegno nel migliorare le prestazioni del sistema sanitario e il contesto complessivo del rischio (del paese). Le stesse sei categorie venivano costruite sulla base di 34 indicatori, di 85 subindicatori e di 140 domande. Gli autori poi combinavano queste sei dimensioni in un punteggio complessivo, l’indice di Sicurezza Sanitaria Globale (GHS). In questo blog io farò riferimento a questo indice.

L’indice del GHS classificava i paesi sulla base del numero di punti che avevano ottenuto dalle sei categorie. In teoria la classificazione andava da 0 a 100, ma la classificazione effettiva andava da 16,5 (il paese meno preparato: la Guinea Equatoriale) a 83,5 (il più preparato). I tre paesi in testa erano gli Stati Uniti, il Regno Unito e l’Olanda.

È stato il ‘destino’ che meno di due mesi dopo la pubblicazione del primo indice sulla preparazione globale, il Covid-19 abbia colpito il mondo con inusuale ferocia. Dunque è ragionevole chiedersi come i giudizi degli esperti sulla preparazione dei vari paesi appaiono al confronto dei risultati effettivi nella lotta contro il Covid-19. Per il secondo aspetto, utilizziamo il dato sulle morti da Covid-19 per milione di abitanti al 21 gennaio del 2021. I dati sono raccolti da Worldometer. I dati sulle morti sono soggetti a molti problemi, dalla sottostima in molti paesi (come mostrata dalla statistica alternativa delle morti in eccesso) alla meno frequente ma possibile sovrastima. Affronterò questi problemi successivamente in modo succinto, e in effetti sarà interessante mettere anche a confronto l’indice GHS con i dati sulle morti in eccesso.

Se il GHS avesse previsto correttamente i risultati del Covid, ci saremmo aspettati che i paesi con il punteggio più alto avessero tassi di mortalità più bassi. Oppure, in alternativa, avremmo potuto trascurare la misurazione fondamentale, e osservare le classifiche dove ci saremmo aspettati che i paesi con punteggi più elevati secondo il GHS sarebbero anche stati classificati in termini di successo nella lotta al virus (ovvero, essi avrebbero avuto un numero relativamente minore di vittime). In un certo senso il secondo confronto è migliore perché i suoi condizionamenti sono minori: esso richiede che il GHS abbia interpretato correttamente la classificazione dei paesi, non necessariamente che sia stato capace di catturare la differenza assoluta dei risultati.

Infine, si osservi che il GHS in linea di principio già include tulle le informazioni ritenute rilevanti nel combattere la pandemia. Quindi aggiungere ad esso i fattori che crediamo potrebbero spiegare il risultato è incongruo. Qualsiasi cosa gli esperti ritenevano fosse rilevante era, per definizione, inclusa nell’indice GHS. Pertanto il nostro obbiettivo è verificare quanto successo abbiano avuto gli esperti nello scegliere i fattori rilevanti, nell’assegnare loro l’influenza corretta, e nel pervenire ad un indice complessivo.

La risposta è impressionante. L’indice GHS non solo è incapace di prevedere i risultati, cioè non solo è ortogonale (indipendente) ai risultati, ma le sue classificazioni sono spesso all’opposto delle classifiche sui successi attualmente osservate. I due diagrammi sotto mostrano i risultati. Il diagramma sulla sinistra mostra che l’indice GHS è relazionato positivamente al tasso di mortalità – proprio l’opposto di quello che ci aspetteremmo. Il diagramma sulla destra mostra che i paesi classificati in alto, come gli Stati Uniti (n° 1), il Regno Unito (n° 2) o l’Olanda (n° 3), sono tra quelli con prestazioni peggiori. Se l’indice avesse prodotto correttamente la classificazione, ci saremmo aspettati un linea inclinata positivamente di 45 gradi. Al contrario osserviamo che gli Stati Uniti sono classificati al 145° posto (su 153 paesi) secondo il loro tasso di mortalità: la differenza tra le sua classificazione prevista e quella effettiva è di 144 posizioni! Il Regno Unito, classificato dall’indice di preparazione come il secondo migliore, secondo i risultati effettivi è al 149° posto.

zzz 87


Per molti paesi ricchi i divari nelle classifiche tra le prestazioni previste ed osservate sono enormi: per fornire alcuni esempi,  124 posizioni per la Francia, 119 posizioni per l’Italia, 99 posizioni per il Canada, 97 posizioni per la Germania. D’altra parte, le prestazioni di molti paesi sono state molto migliori di quello che prevedevano gli esperti: il Vietnam era classificato 47°, ma il termini di prestazioni è il 4°; la Cina 48° ed è l’8°; Cuba 95° ed è la 19°. Ci sono molte discrepanze lampanti: la Thailandia e a Svezia sono classificate l’una vicina all’altra: la prima ha riportato un morto per milione, la seconda 1.078 morti. Anche Singapore e l’Argentina sono classificate assieme: Singapore ha 5 morti per milione, l’Argentina 1020. Si possono facilmente fare varie dozzine di confronti simili.

L’esercizio mostra inequivocabilmente che i risultati previsti sono di gran lunga differenti (in alcuni casi, proprio opposti) dei risultati effettivi. Ci sono due possibili scusanti che gli autori dell’indice possono accampare.

La prima, è molto probabile che le vittime relative siano mal misurate. Ma quell’argomento è indebolito dal fatto che le differenza nei tassi di mortalità tra coloro che hanno prestazioni buone e cattive sono enormi. Esse sono spesso diverse di vari ordini di grandezze: le morti su un milione(al 21 gennaio 2021) erano 1.266 negli Stati Uniti, 1 in Thailandia, 3 in Cina, 16 a Cuba. In qualunque modo siano state sottostimate le morti negli ultimi tre paesi, esse non possono essere sottostimate di 1.200 volte in Thailandia, di 400 volte in Cina, o di 80 volte a Cuba. Inoltre, perché l’indice abbia senso, confrontare la Cina, la Thailandia e Cuba con gli Stati Uniti, il Regno Unito e l’Olanda non è sufficiente: si dovrebbe dimostrare che la Cina, la Thailandia e Cuba (come prevedeva l’indice) siano andati molto peggio – in modo tale che i requisiti di cattiva misurazione delle morti divengono davvero astronomici. Perciò, un esercizio che utilizzi i tassi delle morti in eccesso anziché le morti riportate è quasi certo scopra la stessa mancanza di correlazione tra le previsioni ed i risultati effettivi.

La seconda scusante è che le previsioni che in questo caso erano state fatte si riferivano alle epidemie in generale, mentre il Covid-19 è un’epidemia molto particolare che tende ad essere molto più letale per la popolazione anziana o obesa. Secondo tale argomento, se gli autori avessero conosciuto le caratteristiche del Covid-19, avrebbero prodotto un indice GHS migliore. Questo è abbastanza possibile. Ma questo contraddice proprio l’idea che è implicita nell’indice. Se ogni epidemia è peculiare, allora quale è lo scopo di avere un indice generale GHS? Supponiamo che la prossima epidemia uccida persone con gli occhi blu. Dal momento che non sappiamo se una epidemia del genere avrà luogo, quale informazione utile può essere raccolta con l’indice GHS? Se ogni epidemia è interamente specifica e i suoi effetti non possono essere previsti, potremmo allora altrettanto ragionevolmente fare una graduatoria completamente random dei paesi.

Non si sfugge dunque dalla triste conclusione che un indice i cui obbiettivi fossero mettere in evidenza i punti di forza e di debolezza nella gestione di potenziali epidemie o sia interamente fallito, oppure si sia dimostrato inutile. Si può scegliere l’una o l’altra di queste due conclusioni, egualmente sconfortanti. Ma dovremmo anche avanzare due considerazioni aggiuntive. La prima, studiare i (pochi) casi nei quali l’indice ha previsto con successo le prestazioni (sono mostrati nell’angolo in basso a sinistra del secondo diagramma: la Thailandia, l’Australia, Singapore, il Giappone, la Corea [2]). La seconda, essere diffidenti di indici simili che vengono prodotti per altre variabili come la corruzione, la trasparenza nei Governi, e cose simili. Anche essi sono “ragionevoli” finché non vengono confrontati con la realtà e può darsi che riflettano soltanto la cassa di risonanza dei pensieri degli esperti.







[1] Provo a interpretare: le due tabelle non sono facilmente leggibili, le sigle ovviamente indicano i nomi dei vari paesi e soprattutto quando si addensano nelle stesse zone non è facile distinguerle. Il diagramma di sinistra mostra sull’asse verticale la graduatoria del numero dei morti per milione di abitanti, e su quello orizzontale la graduatoria nell’indice GHS (secondo i punteggi da 0 a 100 illustrati nell’articolo). Si vede chiaramente che Stati Uniti (US), Regno Unito (UK) e Olanda (NLD) che sono collocati nei primi posti in graduatoria GHS (attorno ad un punteggio di 80) sono anche collocati nelle zone più elevate della mortalità. L’Italia ha, come è noto, una mortalità elevata ed è collocata con un punteggio medio alto, inferiore a 60, nella graduatoria GHS. Il secondo diagramma mostra sull’asse verticale i posti in graduatoria sulla base del tasso di mortalità (in questo caso USA, Inghilterra e Olanda hanno posti in graduatoria tra i più elevati, assieme all’Italia) e sull’asse orizzontale i posti in graduatoria GHS (dunque, ad esempio, USA e Regno Unito sono tra i primi in alto a sinistra, mentre l’Italia è circa al 50° posto della graduatoria).

[2] Tutti questi paesi, come si vede nel secondo diagramma in basso a sinistra, mostrano infatti una forte coerenza essendo nei primi posti in graduatoria dell’indice GHS e in una collocazione ‘bassa’ come mortalità relativa da Covid-19.






Commenti dei Lettori (0)

E' possibile commentare l'articolo nell'area "Commenti del Mese"