Altri Economisti » Saggi, articoli su riviste. Krugman ed altri » Selezione del Mese

La statistica come filosofia ed arte, di Branko Milanovic (dal blog Global Inequality and more, 10 febbraio 2023)


Feb. 10, 2023

Statistics as a philosophy and art.

Branko Milanovic

zzz 234

The statistical work during the first fifteen years of the People’s Republic of China can be usefully, if somewhat simplistically, divided into three periods as the excellent book “Making it Count” by Arunabh Ghosh argues. The first goes from the foundation of the People’s Republic in 1949 to approximately 1956. During that period the Chinese statistical system and the overall approach to statistics were heavily influenced by the experience of the Soviet Union. The statistics were seen as a handmaiden of planning. The implication of that view was, as it became clear at a very important conference in Moscow in 1954 (i.e., after Stalin’s death but before Khrushchev’s “thaw”)  that statistics is a social science and that its use is directly related to the tasks of industrialization and development. Its three key principles, as applied by Chinese statisticians too, were exhaustiveness, completeness, and objectivity. This meant that the entire phenomenon studied should be covered and documented, and that it should be done in a non-probabilistic “objective”, almost descriptive, way. The implication was to relegate what is today the dominant view of  philosophy of statistics into the more abstract mathematical statistics that hardly ever dealt with social phenomena. (The politicization of statistics in the Soviet Union became such, Ghosh writes, that several prominent statisticians decided to move away from anything that may be politically controversial and to apply their statistical knowledge to the study of astronomy.)

The Soviet approach was soon found wanting in China. It put extremely high demands on providers of information, generated a huge amount of paperwork so much so that the State Statistics Bureau (SSB) was drowning in  data—which paradoxically it did not know how to summarize into useful information for policy-makers.  Thus the two contradictory phenomena appeared: on one hand the providers of data complained of the enormous, and quasi-continuous,  cost in effort and time, while, on the other hand, SSB was unable to fulfill its role. Ghosh shows that the problems were very severe in the agricultural sector, composed of hundred of thousands of villages and farms from which crucial information about yields and production was needed. The system was less inefficient for the much smaller and more concentrated sector of industrial enterprises.

With the political change in 1956 and 1957, leading to the break of close relations with the Soviet Union, there was also a change in the approach undertaken by Chinese statisticians. They turned much more towards India. India was then also beginning  its Second Five-Year Plan (1956-61) and it saw statistics as an important planning tool. But rather than using the exhaustive censuses it pursued, under the influence of its famous statistician P. S. Mahalanobis (Professor Ma to the Chinese), the system of random surveys. Such surveys, it was argued, were not only faster and cheaper than the alternatives, but produced the statistics (for example, on grain or cotton yield) that were accurate and whose mean values had a bias that could be quantified.

Mahalanobis, who was personally and politically close to Nehru, was able to stimulate an interest in Indian statistics in Zhou Enlai and other Chinese officials during one of their visits to India. Propelled by the politics of Sino-Indian bandungrapprochement in the wake of the Bandung conference, there were several years of close relations between the Indian Statistical  Institute in Calcutta and SSB in Beijing. SSB began a cautious move away from comprehensive enumerative approach toward the use of random sampling.

Despite several practical advantages of random sampling, one should not disregard the philosophical differences between the two approaches. Ghosh’s book brings them out quite well. The comprehensive and exhaustive approach aims to a full and complete understanding of social reality. Like in Borges’ short story “On exactitude in science”, its aim is nothing less than the replication of reality it studies. The sampling approach is more limited in its objectives, more pragmatic  and utilitarian, and holds that through randomization and stratification it is able to comprehend the same reality much more cheaply, quickly and in a more purposeful manner.

Before we come to the third period, and the third approach, it is important to mention that throughout all this time in the background was present yet a different method, championed by Mao himself, when he studied social structure in the rural areas of Hunan in 1927. Mao privileged the ethnographic method with researcher’s direct involvement.  The ethnographic method is comprehensive but is also purposeful in the sense that its objective is not  to study the peasant society for its own sake, but to find out, through careful observation of reality, what are the differences in class interests, and what classes are likely to support or to oppose communist policies. The ethnographic approach advocated an unmediated contact with, and direct knowledge of, reality that is studied. That is not a feature that the comprehensive enumeration or sampling normally exhibit. There is a distance between the people who supply information in factories and fields, those who collect it, and the statisticians in the center who decide how to present it to the public and the policy-makers.

The statistical methods used during the first and the second period were to some extent antithetical to Mao’s view where the producer of information should be personally involved with the object of his study. It is true that the direct knowledge of the reality that is being studied is helpful but Mao’s approach to complex and large economies, and to the China that at the time had more than 700 million citizens, is simply not feasible.

The third period begins with the anti-Rightist campaign in 1958 and the Great Leap Forward in 1959-60. It led to the abandonment of the earlier approaches in favor of “typical” or “purposeful” sampling, where researchers are not interested in the integrity of the phenomenon but in some of its typical or average features. In terms of the field with which I am familiar, distribution of income and consumption, the typical approach does not aim to cover the entire spectrum of incomes that are being received, i.e. the poor, the middle class, and the rich; rather it focuses on a priori selected types of households who are studied in detail. In other words, the interest is how various typical households are faring, not how all households are doing. The typical approach has its origin in the early Soviet family budgets surveys of the 1920s that were concerned with the rural-urban differences and where the objective was to look at how typical industrial household compares with the typical agricultural household. (One can go even further back to the mid-19th century English surveys of workers’ households.) There are two major problem with this approach: its neglect of the entire distribution, and its a priori selection of what typical is. Of course, the latter is driven by policy choices and, as we shall see, it produced disastrous effects during the Great Leap Forward.

Ghosh’s discussion of the use and misuse of statistics during the Great Leap Forward (GLF) is especially important. While it is commonly argued that the statistical information during the GLF collapsed as the center became disorganized and weakened by the placing of political correctness before professional skills, and the collection of information became decentralized with clear incentives to present only positive, and to suppress every negative, information, Ghosh argues that this is not a full story.  Ideological change in statistics was also to blame. Even if political incentives of the suppliers of information to show a much more rosy picture, are left aside, the methodological choice led to the misrepresentation of reality. During the GLF information was collected mostly from the villages that were doing things relatively successfully or were not affected by the worst effects of famine. Data that were then presented to the leaders, under such extraordinary circumstances, were biased by the very design of surveys. (Obviously, had circumstances been less dramatic, the consequence of the use of typical surveys would be far less.)

Ghosh’s book is an important contribution because the philosophy behind the statistical research is very poorly understood and the history of how statistics has evolved to the position that it now occupies is neither taught nor known even among the practitioners. The contribution of the book, while it looks at China specifically, is not only that it enables us to study the philosophy behind the statistical work in China but to see the ideological or philosophical underpinnings to much of statistical work in general. Another contribution of the book,  as  the author mentions, is that it departs from the simplistic US- or Soviet-centric approach and looks at the early instances of the South-South cooperation and the role that the exchange of information, ideas and methods  between India and China played in the 1950s. The reader is left in no doubt that had that cooperation continued, and had it did not been derailed by the Great Leap Forward and the political incidents following the revolt in Tibet and the exile of Dalai Lama to India, the Chinese statistical situation would have been much better in the 1970s than it was.

The book ends before the Cultural Revolution which caused yet another, possibly even greater, shock to the Chinese statistics. The number of statistical publications by SSB during the first several years of the Cultural Revolution fell practically to zero. That the statistical office which in the 1950s employed, over all China, more than 200,000 people came to employ barely several hundred, illustrates the extent of the disruption.  The next stage, which continues to this day,  is only hinted at: it begins in the early 1970s with some improvements in the collection of data, and finally with 1981 when the first issue of the Chinese statistical yearbook was published.


La statistica come filosofia ed arte,

di Branko Milanovic


Il lavoro statistico durante i primi quindici anni della Repubblica del Popolo della Cina può essere utilmente diviso, pur semplicisticamente, in tre periodi, come sostiene l’eccellente libro “ Making it count” di Arunabh Ghosh [1]. Il primo va dalla fondazione della Repubblica del Popolo nel 1949 ad approssimativamente il 1956. Durante quel periodo il sistema statistico cinese e l’approccio complessivo alla statistica venne pesantemente influenzato dall’esperienza dell’Unione Sovietica. La statistica veniva considerata come l’ancella della pianificazione. L’implicazione di quel punto di vista era, come divenne chiaro in una conferenza molto importante a Mosca nel 1954 (ovvero, dopo la morte di Stalin ma prima del “disgelo” di Kruscev) che la statistica è una scienza sociale e che il suo uso è direttamente connesso con gli obbiettivi della industrializzazione e dello sviluppo. I suoi tre principi fondamentali, come applicati anche dagli statistici cinesi, erano la capillarità, la completezza e l’obbiettività. Questo comportava che l’intero fenomeno studiato doveva essere trattato e documentato e che ciò doveva esser fatto in un modo “obbiettivo” non probabilistico, quasi descrittivo. La conseguenza fu il relegare quello che oggi è il punto di vista dominante della filosofia della statistica alla più astratta statistica matematica,  che difficilmente si misura mai con i fenomeni sociali (la politicizzazione della statistica in Unione Sovietica divenne tale, scrive Ghosh, che vari eminenti statistici decisero di venir fuori da tutto quello che poteva essere politicamente controverso e di applicare le loro competenze statistiche allo studio dell’astronomia).

L’approccio sovietico venne presto trovato carente in Cina. Esso poneva domande estremamente ambiziose ai fornitori delle informazioni, generava una vasta quantità di documentazione al punto che l’Ufficio Statale di Statistica (SSB) era sommerso dai dati – che paradossalmente non sapeva come sintetizzare in informazioni utili per le autorità. Quindi si manifestarono i due fenomeni contraddittori: da una parte i fornitori di dati si lamentavano per il costo enorme, e quasi continuo,  in termini di fatica e di tempo, dall’altra parte lo SSB era incapace di svolgere il suo ruolo. Ghosh mostra che il problema era molto grave nel settore agricolo, composto da un centinaio di migliaia di villaggi e di fattorie dalle quali erano necessarie le informazioni sui rendimenti e sulle produzioni. Il sistema era meno inefficiente per il settore molto più piccolo e più concentrato delle imprese industriali.

Con il cambiamento politico nel 1956 e 1957, che portò alla rottura delle strette relazioni con l’Unione Sovietica, ci fu anche un cambiamento nell’approccio utilizzato dagli statistici cinesi. Essi si volsero molto di più verso l’India. L’India allora stava avviando il suo Secondo Piano Quinquennale (1956-61) e considerava le statistiche come uno strumento importante di pianificazione. Ma piuttosto che utilizzare censimenti onnicomprensivi essa perseguiva, sotto l’influenza del suo famoso statistico P. S. Mahalanobis (per i cinesi, il Professor Ma), il sistema dei sondaggi random. Tali sondaggi, si sosteneva, non solo erano più rapidi ed economici delle soluzioni alternative, ma producevano statistiche accurate (ad esempio, sul rendimento dei cereali e del cotone), i cui valori principali erano idonei ad essere quantificati.

Mahalanobis, che era personalmente e politicamente vicino a Nehru, fu capace di stimolare un interesse alla statistica indiana in Zhou Enlai e in altri dirigenti cinesi durante una delle loro visite in India. Sospinto dalla politica del bandungriavvicinamento sino-indiano alla vigilia della Conferenza di Bandung, ci furono vari anni di strette relazioni tra l’Istituto Statistico di Calcutta e lo SSB di Pechino. Lo SSB cominciò un cauto spostamento da un approccio onnicomprensivo e numerico verso l’utilizzo di campionature random.

Nonostante vari vantaggi pratici della campionatura random, non si dovrebbero trascurare le differenze filosofiche dei due approcci. Il libro di Ghosh le fa emergere abbastanza bene. L’approccio onnicomprensivo ed esauriente si propone una comprensione della realtà sociale piena e completa. Come nel breve racconto di Borges “Sull’esattezza nella scienza”, il suo scopo è niente di meno che la replica della realtà che esso studia. L’approccio a campionatura è più limitato nei suoi obbiettivi, più pragmatico e utilitaristico, e ritiene che attraverso la randomizzazione e la stratificazione esso sia capace di comprendere la stessa realtà molto più economicamente, rapidamente e in una maniera più significativa.

Prima di arrivare al terzo periodo, e al terzo approccio, è importante ricordare che in tutto questo periodo era ancora presente un metodo diverso, sostenuto dallo stesso Mao, al momento in cui egli studiò la struttura sociale nelle aree rurali dello Hunan nel 1927. Mao privilegiava il metodo etnografico, con il coinvolgimento diretto dei ricercatori. Il metodo etnografico è onnicomprensivo ma è anche significativo nel senso che il suo obbiettivo non è studiare la società contadina per il suo interesse in sé, ma scoprire, attraverso l’osservzione scrupolosa della realtà, quelle che sono le differenze negli interessi di classe, e quali classi è probabile si oppongano alle politiche comuniste. L’approccio etnografico sosteneva un contatto non mediato, e una diretta conoscenza, della realtà che studiava. Questa non è una caratteristica che il metodo della elencazione onnicomprensiva o della campionatura normalmente mostrano. C’è distanza tra le prsone che forniscono le informazioni nelle fabbriche e nei campi, quelle che le raccolgono e gli statistici che al centro decidono come presentarle al pubblico ed alle autorità politiche.

I metodi statistici usati nel primo e nel secondo periodo erano in qualche misura antitetici al punto di vista di Mao, per il quale i produttori del’informazione dovrebbero essere personalmente coinvolti nel suo oggetto di studio. È vero che la diretta conoscenza della realtà che viene studiata è utile, ma l’approccio di Mao nel caso di economie complesse e vaste, e della Cina che a quel tempo aveva più di 700 milioni di cittadini, era semplicemente irrealizzabile.

Il terzo periodo comincia con la campagna contro la destra del 1958 e con il Grande Balzo in Avanti del 1959-60. Essa portò all’abbandono dei precedenti approcci, a favore della campionatura “tipica” o “di scopo”, dove i ricercatori non sono interessati all’interezza del fenomeno ma ad alcune sue caratteristiche tipiche o medie. Nei termini della disciplina che mi è familiare, la distribuzione del reddito ed il consumo, l’approccio tipico non si indirizza a coprire l’intero spettro dei redditi che vengono ricevuti, ad esempio dai poveri, dalla classe media e dai ricchi; piuttosto si concentra su tipologie selezionate apriori di famiglie che vengono studiate in dettaglio. In altre parole, l’interesse è su come varie famiglie tipiche se la stanno passando, non su come tutte le famiglie stanno comportandosi. L’approccio tipico ha la sua origine agli inizi dei sondaggi sui bilanci della famiglia sovietica degli anni ’20 che si preoccupavano delle differenze rurali-urbane e dove l’obbiettivo era osservare come una tipica famiglia industriale si collocava nel confronto con una tipica famiglia agricola (si potrebbe persino risalire più indietro ai sondaggi inglesi della metà del diciannovesimo secolo sulle famiglie dei lavoratori). In questo approccio, ci sono due principali problemi: il suo trascurare la distribuzione intera e la sua selezione aprioristica di quello che è tipico. Naturalmente, il secondo è guidato da scelte politiche e, come vedremo, produsse effetti disastrosi durante il Grande Balzo in Avanti.

L’analisi di Ghosh sull’uso e l’abuso delle statistiche durante il Grande Balzo in Avanti (GLF) è particolarmente importante. Mentre si è comunemente sostenuto che l’informazione statistica durante il GLF collassò quando il centro divenne disorganizzato e indebolito dalla collocazione della correttezza politica prima delle competenze professionali, e la raccolta delle informazioni venne decentralizzata con chiari incentivi a presentare soltanto informazioni positive, ed a sopprimere tutte quelle negative, Ghosh sostiene che questa non è tutta la storia. La colpa fu anche nel mutamento ideologico nella statistica. Anche se si mettono da parte gli incentivi politici ai fornitori dell’informazione a mostrare un quadro molto più roseo, la scelta metodologica portò ad una rappresentazione fuorviante della realtà. Durante il GLF l’informazione veniva raccolta soprattutto dai villaggi che stavano ottenendo relativamente successo o che non erano colpiti dagli effetti peggiori della carestia. I dati che venivano poi presentati ai leader, in tali straordinarie circostanze, erano orientati proprio dal progetto dei sondaggi (ovviamente, se le circostanze fossero state meno drammatiche, le conseguenze dell’uso di sondaggi ‘tipici’ sarebbero state assai inferiori).

Il libro di Ghosh è un importante contributo perché la filosofia che sta dietro la ricerca statistica è compresa molto modestamente e la storia di come la statistica si è evoluta sino alla poisizione che occupa adesso non è né insegnata né conosciuta tra coloro che la praticano. Il contributo del libro, se ha per oggetto in particolare la Cina, non è solo che esso ci consente di studiare la filosofia che sta dietro il lavoro statistico in Cina, ma, più in generale, di osservare i sostegni ideologici o filosofici di buona parte del lavoro statistico. Un altro contributo del libro, come ricorda l’autore, è che esso si allontana dall’approccio semplicistico statunitense o centrato sull’Unione Sovietica, e guarda ai primi esempi di una cooperazione tra i paesi del Sud del mondo e il ruolo che lo scambio di informazioni, delle idee e dei metodi tra India e Cina ebbero negli anni ’50. Al lettore non resta alcun dubbio che se la cooperazione fosse continuata, se essa non fosse stata fatta deragliare dal Grande Balzo in Avanti e dagli incidenti politici che fecero seguito alla rivolta nel Tibet e all’esilio del Dalai Lama in India, la situazione della statistica in Cina negli anni ’70 sarebbe stata molto migliore di quella che fu.

Il libro termina prima della Rivoluzione Culturale che tuttavia provocò un altro, forse persino più grande, trauma alla statistica cinese. Il numero delle pubblicazioni statistiche del SSB durante i primi anni della Rivoluzione Culturale crollò in pratica sino a zero. Quell’ufficio statistico che negli anni ’50 occupava, in tutta la Cina, più di 200.000 persone e finì con l’occuparne appena varie centinaia, illustra la dimensione del disastro. Lo stadio successivo, che presegue fino ai nostri giorni, viene solo accennato: esso inizia nei primi anni ’70 con alcuni miglioramenti nella raccolta dei dati, e finalmente con il 1981, quando venne pubblicata la prima edizione dell’annuario statistico cinese.








[1] Non ho idea di come sarà tradotto il titolo del libro di Ghosh in una futura edizione italiana, se mai la avremo. L’espressione “Make it count” può essere resa in modi svariati: con “Fallo (fatelo) contare”, “Fa(te) in modo che sia importante”, “Voglio godermelo”, “Renditi (rendetevi) utile(i)” … Scegliendo la più probabile tra tante, il titolo intero è: “Fatelo contare: statistica e statualità agli inizi della Repubblica del Popolo della Cina”.
















Commenti dei Lettori (0)

E' possibile commentare l'articolo nell'area "Commenti del Mese"