Varianza e Deviazione Standard

INTERMEDIATE ACCESS - € 7.99

La biostatistica ha quale focus principale la comprensione della variabilità. La variabilità è l’elemento caratterizzante ogni studio di ricerca sia esso eseguito in contesti reali o sperimentali. Misurare la variabilità di un fenomeno, controllarne gli effetti e comprendere ciò che è casualmente variabile da ciò che invece varia a seguito di uno stimolo o di un precedente evento è quello di cui si occupa la biostatistica. Tra le misure di dispersione – misure tutte dirette alla comprensione della variabilità – la varianza è considerata lo strumento per eccellenza, il gold standard dell’intera biostatistica. L’utilità della varianza è notevole sia in statistica descrittiva che inferenziale tanto che nel corso del tempo i biostatistici hanno sviluppato intorno ad essa delle tecniche statistiche ad hoc note con il nome di analisi della varianza.

Per poter comprendere il percorso logico che porta alla definizione di varianza, prendiamo in considerazione la seguente Figura 1.

Figura 1 - Dispersione

Dalla figura notiamo che quando i dati di una variabile tendono a concentrarsi intorno al valore medio come succede ad esempio per i dati della popolazione B, il grado di dispersione è basso, mentre nei casi in cui i dati si distribuiscono in modo tale che alcuni risultano particolarmente lontani dal valore medio (popolazione A), il grado di dispersione è maggiore.

Questa semplice osservazione ci porta ad ipotizzare che un’ottimale misura di dispersione possa essere ricavata calcolando la media delle distanze che intercorrono tra ciascuna osservazione della variabile X e la media della stessa variabile.

In termini aritmetici ipotizziamo dunque che la dispersione si possa ottenere calcolando dapprima la differenza tra il valore di ciascuna osservazione e la media della variabile e successivamente trovando il valore medio di queste differenze. In termini aritmetici questo processo è riassunto dalla seguente formula:

[math] \text{dispersione}=\frac{\sum_{i=1}^{n}(x_i-media)}{n} [/math]

in cui i valori [math] x_i-media [/math] sono appunto le differenze dei valori delle singole osservazioni della variabile [math] X [/math] e la media, ossia le distanze tra ciascuna osservazione e la media della variabile. Come puoi notare la formula precendente è la media della variabile contenente le differenze.

Per valutare se tale approccio sia effettivamente eseguibile, consideriamo il seguente dataset (Tabella 1) composto da15 osservazioni in cui la media della variabile X è 49.6.

IDvariabile X

165

232

357

447

542

662

732

855

924

1069

1149

1276

1360

1441

1533

Tabella 1 - Variabile X - Sample size: 15 osservazioni

Seguendo quanto detto in precedenza, calcoliamo la deviazione di ciascuna osservazione rispetto alla media: come riportato

Continue reading...

Please to see full post.

No questions found.

Carrello
  • Il carrello è vuoto.
Index
Torna in alto