giovedì 12 dicembre 2019

STATISTICA DESCRITTIVA: MISURE DI VARIABILITA' a cura di Mariacristina Guardenti


Sai ched’è la statistica? È ‘na cosa che serve pe’ fa’ un conto in generale de la gente che nasce, che sta male, che more, che va in carcere e che sposa. Ma pe’ me la statistica curiosa è dove c’entra la percentuale, pe’ via che, lì, la media è sempre eguale puro co’ la persona bisognosa. Me spiego: da li conti che se fanno secondo le statistiche d’adesso risurta che te tocca un pollo all’anno: e, se nun entra ne le spese tue, t’entra ne la statistica lo stesso perché c’è un antro che ne magna due. Trilussa

Premessa

Se, accanto alla media, Trilussa avesse calcolato anche un indice di variabilità questo gioiellino di sonetto non sarebbe mai stato scritto.

La statistica è una scienza che ha come obiettivo lo studio quantitativo (numeri) e qualitativo (caratteri) di un fenomeno collettivo, di un gruppo di persone o un gruppo di oggetti; insegna ad individuare i modi in cui un fenomeno si manifesta, a descriverlo sinteticamente e a trarne da esso conclusioni più generali per fenomeni più ampi; si interessa inoltre della raccolta e dell'analisi dei dati e dell'interpretazione dei risultati.  
Ci  consente di: formulare leggi, fare previsioni su determinati fenomeni e grazie ai suoi risultati, di operare scelte proficue e prendere decisioni per risolvere problematiche oggetto dell’indagine statistica, che raccoglie ed analizza dati e numeri.


Si divide in:

Statistica Descrittiva studia il fenomeno relativo ad un Campione che trae informazioni sull’intera Popolazione.  E come studia il fenomeno? Descrivendo la massa dei dati sperimentali con pochi numeri o grafici significativi. Fotografa cioè una data situazione e ne riassume le caratteristiche salienti (contenuto statistico). Deve quindi sintetizzare tramite pochi valori(INDICI o INDICATORI) un vasto numero di misure. In questo tipo di statistica è possibile valutare in modo sintetico la distribuzione dei dati  non soltanto mediante gli indici di posizione (Media, Moda, Mediana, Quantili) ma anche grazie agli indici di variabilità (o dispersione).

Statistica Induttiva o Inferenziale estende i risultati ottenuti su un campione alla intera Popolazione. Le indicazioni (che siano valide per l’intera popolazione) sono state tratte dal campione per fare previsioni di tipo probabilistico su situazioni future o comunque incerte.

La statistica non sarebbe necessaria se nella popolazione sussistesse assenza di variabilità e un singolo elemento, una sola unità campionaria sarebbe bastante a determinare tutto ciò che vogliamo osservare su quella popolazione.

Poiché la popolazione si presenta eterogenea per caratteri e forme per prendere informazioni sul campione -che deve essere rappresentativo della stessa- servono informazioni sulla variabilità.



In genere si riassumono le osservazioni di un fenomeno facendo la loro media (in particolare quella aritmetica). Tuttavia pochi sanno che la media, da sola, è poco espressiva del fenomeno, perché in due popolazioni rilevate, a parità di media, possono corrispondere osservazioni completamente diverse, come distanza dalla media stessa. In questi casi, pur in presenza della stessa media, la popolazione che ha osservazioni più distanti è scarsamente rappresentabile dalla sola media, come indice sintetico di dimensione.

Esemplificando, una popolazione composta da due sole grandezze, 4 e 6, ha media aritmetica 5, ma anche una popolazione composta da 1 e 9 ha media 5. Tuttavia mentre la media 5 costituisce una discreta approssimazione di 4 e 6, essa non rappresenta allo stesso modo le grandezze 1 e 9, perché queste sono eccessivamente lontane dalla loro media.

Sarebbe quindi sempre opportuno, in tutte le rilevazioni, accompagnare la media da un altro indice, detto di variabilità, che esprime appunto quanto il fenomeno è variabile rispetto alla media, così da dare maggiori informazioni a chi intende leggere le caratteristiche dell’intera popolazione partendo dalla sua rappresentazione sintetica.

In altre parole se rappresentiamo un fenomeno, oltre che dalla sua media, anche dalla misura della sua variabilità, mitighiamo il difetto comunicativo insito nella media del “pollo di Trilussa”, il quale sosteneva – giustamente – che la statistica per cui un italiano mangia un pollo ogni anno è formata da chi ne mangia due e da chi non ne mangia nessuno.



Abbiamo visto che la media è una misura della localizzazione centrale della distribuzione (potremmo dire il centro di gravità). I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico. Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati. Come abbiamo visto sopra con l’esempio di prima, popolazioni con la stessa media possono avere un grado molto diverso di variazione dei dati.

Quindi una maniera per esprimere questa variazione è quello di utilizzare la media come punto di riferimento di ciascun valore, e successivamente calcolare la deviazione di ciascun dato dalla media (il suo “scarto” dalla media) e valutare la diversità esistente tra le osservazioni attraverso le  Misure di Variabilità dette anche indici statistici di Dispersione e che sono:

Campo di Variazione detto anche Range;  Devianza; Varianza;  Deviazione Standard; Coefficiente di variazione (variabilità relativa)



Campo di Variazione detto anche “gamma” della variabile: il Campo di variazione o range, rappresenta l’ampiezza dell’intervallo dei dati  e corrisponde alla differenza fra la modalità più grande e la modalità più piccola della distribuzione. Fornisce un’idea dello spazio all’interno del quale si muove il fenomeno, ma non dice nulla sulla variabilità all’interno dell’intervallo. Infatti tiene conto dei suoi due valori estremi e trascura tutti gli altri.



Devianza: è un indice di dispersione dei dati. Si usa per descrivere sinteticamente una distribuzione statistica quantitativa ed in particolar modo la misura con la quale i suoi valori sono distanti da un valore centrale (media o mediana). Si calcola facendo la somma dei quadrati degli scarti della media aritmetica.



Varianza: È una misura di sintesi della dispersione dei valori osservati intorno ad un valore di riferimento, o baricentro, qual è la media aritmetica.  L' obiettivo è quello di misurare la variabilità, cioè vedere quanta "diversità" c'è tra le modalità (manifestazioni concrete) del fenomeno che stiamo studiando. Un modo di procedere, allora, potrebbe essere questo: confrontare ogni modalità con la media (in termini di differenza, ovviamente), ELEVANDO AL QUADRATO TALI DIFFERENZE,  e sommando tutte queste differenze al quadrato, in modo tale da avere una misura di sintesi che mi dica quanto le modalità sono diverse tra loro. POI, DIVIDO PER N, CIOE’ PER IL NUMERO DI MODALITA’.

La Varianza è anche conosciuta come deviazione standard quadratica ed è indicata con la lettera greca sigma al quadrato σ². Perchè eleviamo al quadrato tutte le differenze, che in Statistica vengono chiamate "scarti"? .Se proviamo a fare la somma delle differenze (= scarti ) senza elevarle al quadrato, vediamo che il risultato sarà sempre zero, Il motivo risiede nelle proprietà della media aritmetica: la somma degli scarti dalla media è sempre zero.  Proprio perchè somma di quantità al quadrato (non negative), la Varianza è sempre maggiore o uguale a zero, E NON PUO’ MAI ESSERE NEGATIVA

Questa misura che caratterizza molto bene la variabilità di una popolazione, ha lo svantaggio di essere una grandezza quadratica (al quadrato) e quindi non direttamente confrontabile con la media o con gli altri valori della distribuzione.  Per trovare una misura espressa nella stessa unità d i misura della variabile di partenza è sufficiente estrarre la radice quadrata della varianza ed ecco ottenuta la



Deviazione Standard detta anche scarto quadratico medio, parente della Varianza perché si ottiene calcolando la radice quadrata della Varianza è una misura di distanza dalla Media e quindi ha sempre un valore positivo ed esprime la misura della dispersione della variabile casuale intorno alla media. Essa indica quanto, in media, ciascun elemento si discosta dalla media aritmetica. Se la deviazione standard ( σ ) è grande, i valori della distribuzione sono dispersi.  Viceversa, se la deviazione standard è piccola, i valori sono concentrati vicino alla media.

Lo scarto quadratico medio, basato sui quadrati degli scarti, dimostra di possedere un’enorme utilità nella statistica, per due motivi fondamentali:  1) riflette la dispersione dei punteggi così che la variabilità di diverse distribuzioni può essere messa a confronto in termini di scarto quadratico medio;  2) consente un’interpretazione precisa dei punteggi entro la distribuzione. 



Il Coefficiente di Variazione (detto anche coefficiente di dispersione) è un indicatore statistico di dispersione relativa, serve per confrontare tra loro indici non confrontabili (ad es due unità di misura diversa come il dollaro e l’euro) calcolato come rapporto tra la deviazione standard e la media della distribuzione. È anche detto coefficiente di dispersione.

Nessun commento:

Posta un commento