sabato 20 aprile 2013

Replicare i risultati



La vicenda della non-replicabilità dei risultati in Reinhart, Rogoff è molto istruttiva.

Ero al terzo anno di dottorato e avevo scelto il tema della mia tesi. Per far pratica decisi di replicare i risultati di un lavoro di due studenti più anziani che lavoravano con il mio stesso relatore - Rob Engle. In quell'occasione imparai che cercare di replicare i risultati di altri è un ottimo esercizio, ma non è il modo migliore per farsi degli amici. Così lo studente Thomas Herndon (nella foto) ha scoperto l'errore di Reinhart e Rogoff in uno dei lavori più influenti del decennio. Non credo che Reinhart e Rogoff lo amino.

Ora abbiamo una descrizione dell'errore:

"He'd spotted a basic error in the spreadsheet. The Harvard professors had accidentally only included 15 of the 20 countries under analysis in their key calculation (of average GDP growth in countries with high public debt)." (Reinhart, Rogoff... and Herndon: The student who caught out the profs, By Ruth Alexander, BBC News, 19 aprile 2013

Per qualsiasi operazione, con Excel, si scrive una formula in una cella. La formula è certo visibile, ma al tempo stesso non è in evidenza. Ci si può sbagliare, e poi accorgersi degli errori risulta molto difficile. Tanto più difficile quanto più numerose sono le formule disseminate nel foglio elettronico.

Chiunque abbia mestiere nell'analisi dei dati non usa Excel, ma scrive file di programmazione (vuoi per Stata, R, Spss, SAS.... ) che prendono i dati grezzi, svolgono le elaborazioni preliminari, via via sino ai risultati delle procedure statistiche e alla produzione di grafici e tabelle. In questo modo il codice si commenta, è ben osservabile, la chiarezza e la modularità permette di collaborare con coautori o collaboratori anche se distanti migliaia di chilometri, e più occhi possano dedicarsi al controllo del lavoro svolto. Così non si elimina certo la possibilità di commettere errori, ma la si riduce fortemente rispetto alla pratica peggiore di tutte: fare conti con Excel. E la replicabilità, se si lavora bene, è nelle cose: lanci una singola procedura, e questa, eventualmente chiamando altre procedure, partendo dai dati grezzi produce tutti i risultati del paper - tabelle e figure. Se devi cambiare qualche dato grezzo, per esempio per aggiornare una banca dati, lo fai quasi a costo zero: aggiorni i dati, e grazie alla modularità della costruzione in linea di principio non devi far altro.

La lezione che si trae dalla vicenda Reinhart e Rogoff è duplice. Per primo, vi è l'aspetto sottolineato per esempio da Krugman: molti politici si son sentiti raccontare quel che desideravano ascoltare, e strumentalmente il lavoro di Reinhart e Rogoff è stato accolto in modo acritico. Il secondo messaggio è che l'analisi quantitativa è un'attività artigianale, che può esser svolta meglio o peggio.

Nessun commento:

Posta un commento