La biostatistica ha quale focus principale la comprensione della variabilità. La variabilità è l’elemento caratterizzante ogni studio di ricerca sia esso eseguito in contesti reali o sperimentali. Misurare la variabilità di un fenomeno, controllarne gli effetti e comprendere ciò che è casualmente variabile da ciò che invece varia a seguito di uno stimolo o di un precedente evento è quello di cui si occupa la biostatistica. Tra le misure di dispersione – misure tutte dirette alla comprensione della variabilità – la varianza è considerata lo strumento per eccellenza, il gold standard dell’intera biostatistica. L’utilità della varianza è notevole sia in statistica descrittiva che inferenziale tanto che nel corso del tempo i biostatistici hanno sviluppato intorno ad essa delle tecniche statistiche ad hoc note con il nome di analisi della varianza.
Misurare la dispersione
Per poter comprendere il percorso logico che porta alla definizione di varianza, prendiamo in considerazione la seguente Figura 1.
Figura 1 - Dispersione
Dalla figura notiamo che quando i dati di una variabile tendono a concentrarsi intorno al valore medio come succede ad esempio per i dati della popolazione B, il grado di dispersione è basso, mentre nei casi in cui i dati si distribuiscono in modo tale che alcuni risultano particolarmente lontani dal valore medio (popolazione A), il grado di dispersione è maggiore.
Questa semplice osservazione ci porta ad ipotizzare che un’ottimale misura di dispersione possa essere ricavata calcolando la media delle distanze che intercorrono tra ciascuna osservazione della variabile X e la media della stessa variabile.
In termini aritmetici ipotizziamo dunque che la dispersione si possa ottenere calcolando dapprima la differenza tra il valore di ciascuna osservazione e la media della variabile e successivamente trovando il valore medio di queste differenze. In termini aritmetici questo processo è riassunto dalla seguente formula:
[math] \text{dispersione}=\frac{\sum_{i=1}^{n}(x_i-media)}{n} [/math]
in cui i valori [math] x_i-media [/math] sono appunto le differenze dei valori delle singole osservazioni della variabile [math] X [/math] e la media, ossia le distanze tra ciascuna osservazione e la media della variabile. Come puoi notare la formula precendente è la media della variabile contenente le differenze.
Per valutare se tale approccio sia effettivamente eseguibile, consideriamo il seguente dataset (Tabella 1) composto da15 osservazioni in cui la media della variabile X è 49.6.
IDvariabile X
165
232
357
447
542
662
732
855
924
1069
1149
1276
1360
1441
1533
Tabella 1 - Variabile X - Sample size: 15 osservazioni
Seguendo quanto detto in precedenza, calcoliamo la deviazione di ciascuna osservazione rispetto alla media: come riportato
Continue reading...
Please Login to see full post.