Sai ched’è la statistica? È ‘na cosa che serve pe’
fa’ un conto in generale de la gente che nasce, che sta male, che more, che va
in carcere e che sposa. Ma pe’ me la statistica curiosa è dove c’entra la
percentuale, pe’ via che, lì, la media è sempre eguale puro co’ la persona
bisognosa. Me spiego: da li conti che se fanno secondo le statistiche d’adesso
risurta che te tocca un pollo all’anno: e, se nun entra ne le spese tue,
t’entra ne la statistica lo stesso perché c’è un antro che ne magna due.
Trilussa
Premessa
Se, accanto alla media, Trilussa avesse calcolato anche un indice di
variabilità questo gioiellino di sonetto non sarebbe mai stato scritto.
La statistica è una scienza che ha come obiettivo lo studio quantitativo (numeri)
e qualitativo (caratteri) di un fenomeno collettivo, di un gruppo di persone o
un gruppo di oggetti; insegna ad individuare i modi in cui un fenomeno si manifesta, a
descriverlo sinteticamente e a trarne da esso conclusioni più generali per
fenomeni più ampi; si interessa inoltre della raccolta e dell'analisi dei dati e dell'interpretazione
dei risultati.
Ci consente di: formulare leggi,
fare previsioni su determinati fenomeni e grazie ai suoi risultati, di operare
scelte proficue e prendere decisioni per risolvere problematiche oggetto
dell’indagine statistica, che raccoglie ed analizza dati e numeri.
Si divide in:
Statistica Descrittiva studia
il fenomeno relativo ad un Campione che trae informazioni sull’intera Popolazione.
E come studia il fenomeno? Descrivendo
la massa dei dati sperimentali con pochi numeri o grafici significativi. Fotografa
cioè una data situazione e ne riassume le caratteristiche salienti (contenuto statistico). Deve
quindi sintetizzare tramite pochi valori(INDICI
o INDICATORI)
un vasto numero di misure. In questo tipo di statistica è possibile valutare
in modo sintetico la distribuzione dei dati non soltanto mediante gli indici di posizione
(Media, Moda, Mediana, Quantili) ma anche grazie agli indici di variabilità
(o dispersione).
Statistica Induttiva o Inferenziale estende i risultati ottenuti su un campione alla intera Popolazione. Le
indicazioni (che siano valide per l’intera popolazione) sono state tratte dal
campione per
fare previsioni di tipo probabilistico su situazioni future o comunque incerte.
La
statistica non sarebbe necessaria se nella popolazione sussistesse assenza di
variabilità e un singolo elemento, una sola unità campionaria sarebbe bastante
a determinare tutto ciò che vogliamo osservare su quella popolazione.
Poiché
la popolazione si presenta eterogenea per caratteri e forme per prendere
informazioni sul campione -che deve essere rappresentativo della stessa-
servono informazioni sulla variabilità.
In
genere si riassumono le osservazioni di un fenomeno facendo la loro media (in
particolare quella aritmetica). Tuttavia pochi sanno che la media, da sola, è
poco espressiva del fenomeno, perché in due popolazioni rilevate, a parità di
media, possono corrispondere osservazioni completamente diverse, come distanza
dalla media stessa. In questi casi, pur in presenza della stessa media, la
popolazione che ha osservazioni più distanti è scarsamente rappresentabile
dalla sola media, come indice sintetico di dimensione.
Esemplificando,
una popolazione composta da due sole grandezze, 4 e 6, ha media aritmetica 5,
ma anche una popolazione composta da 1 e 9 ha media 5. Tuttavia mentre la media
5 costituisce una discreta approssimazione di 4 e 6, essa non rappresenta allo
stesso modo le grandezze 1 e 9, perché queste sono eccessivamente lontane dalla
loro media.
Sarebbe
quindi sempre opportuno, in tutte le rilevazioni, accompagnare la media da un
altro indice, detto di variabilità, che esprime appunto quanto il fenomeno è
variabile rispetto alla media, così da dare maggiori informazioni a chi intende
leggere le caratteristiche dell’intera popolazione partendo dalla sua
rappresentazione sintetica.
In
altre parole se rappresentiamo un fenomeno, oltre che dalla sua media, anche
dalla misura della sua variabilità, mitighiamo il difetto comunicativo insito
nella media del “pollo di Trilussa”, il quale sosteneva – giustamente – che la
statistica per cui un italiano mangia un pollo ogni anno è formata da chi ne
mangia due e da chi non ne mangia nessuno.
Abbiamo
visto che la media è una misura della localizzazione centrale della
distribuzione (potremmo dire il centro di gravità). I
valori medi sono indici importanti per la descrizione sintetica
di un fenomeno statistico. Hanno però il limite di non darci
alcuna informazione sulla distribuzione dei dati. Come abbiamo visto sopra con l’esempio di prima, popolazioni con la stessa media
possono avere un grado molto diverso di variazione dei dati.
Quindi una maniera per
esprimere questa variazione è quello di utilizzare la media come punto di
riferimento di ciascun valore, e successivamente calcolare la deviazione di ciascun
dato dalla media (il suo “scarto” dalla media) e valutare la diversità
esistente tra le osservazioni attraverso le Misure di Variabilità dette anche indici
statistici di Dispersione e che sono:
Campo di Variazione detto anche Range; Devianza; Varianza; Deviazione Standard; Coefficiente di
variazione (variabilità relativa)
Campo di Variazione detto anche “gamma”
della variabile: il Campo di variazione o range, rappresenta l’ampiezza
dell’intervallo dei dati e corrisponde
alla differenza fra la modalità più grande e la modalità più piccola della
distribuzione. Fornisce un’idea dello spazio all’interno del quale si muove il
fenomeno, ma non dice nulla sulla variabilità all’interno dell’intervallo.
Infatti tiene conto dei suoi due valori estremi e trascura tutti gli altri.
Devianza: è un indice di dispersione
dei dati. Si usa per descrivere sinteticamente una distribuzione statistica
quantitativa ed in particolar modo la misura con la quale i suoi valori sono distanti
da un valore centrale (media o mediana). Si calcola facendo la somma dei
quadrati degli scarti della media aritmetica.
Varianza: È una misura di sintesi della
dispersione dei valori osservati intorno ad un valore di riferimento, o
baricentro, qual è la media aritmetica. L'
obiettivo è quello di misurare la variabilità, cioè vedere quanta "diversità"
c'è tra le modalità (manifestazioni concrete) del fenomeno che stiamo
studiando. Un modo di procedere, allora, potrebbe essere questo: confrontare
ogni modalità con la media (in termini di differenza, ovviamente), ELEVANDO
AL QUADRATO TALI DIFFERENZE, e sommando tutte queste differenze al
quadrato, in modo tale da avere una misura di sintesi che mi dica quanto le
modalità sono diverse tra loro. POI, DIVIDO PER N,
CIOE’
PER IL NUMERO DI MODALITA’.
La Varianza è anche conosciuta
come deviazione standard quadratica
ed è indicata con la lettera greca sigma al quadrato σ². Perchè
eleviamo al quadrato tutte le differenze, che in Statistica vengono chiamate
"scarti"? .Se proviamo a fare la somma delle differenze (= scarti )
senza elevarle al quadrato, vediamo che il risultato sarà sempre zero, Il
motivo risiede nelle proprietà della media aritmetica: la somma degli scarti
dalla media è sempre zero. Proprio
perchè somma di quantità al quadrato (non negative), la Varianza è sempre
maggiore o uguale a zero, E NON PUO’ MAI ESSERE NEGATIVA
Questa misura che caratterizza
molto bene la variabilità di una popolazione, ha lo svantaggio di essere una
grandezza quadratica (al quadrato) e quindi non direttamente confrontabile con
la media o con gli altri valori della distribuzione. Per trovare una misura espressa
nella stessa unità d i misura della variabile di partenza è sufficiente
estrarre la radice quadrata della varianza ed ecco ottenuta la
Deviazione Standard detta anche scarto quadratico medio, parente della
Varianza perché si ottiene calcolando la radice quadrata della Varianza è una
misura di distanza dalla Media e quindi ha sempre un valore positivo ed esprime
la misura della dispersione della variabile casuale intorno alla media. Essa
indica quanto, in media, ciascun elemento si discosta dalla media aritmetica.
Se la deviazione standard ( σ ) è grande, i valori della distribuzione sono
dispersi. Viceversa, se la deviazione
standard è piccola, i valori sono concentrati vicino alla media.
Lo scarto quadratico medio, basato sui quadrati degli scarti, dimostra
di possedere un’enorme utilità nella statistica, per due motivi
fondamentali: 1) riflette la dispersione
dei punteggi così che la variabilità di diverse distribuzioni può essere messa
a confronto in termini di scarto quadratico medio; 2) consente un’interpretazione precisa dei
punteggi entro la distribuzione.
Il Coefficiente di
Variazione (detto anche coefficiente di dispersione) è un indicatore
statistico di dispersione relativa, serve per confrontare tra loro indici non
confrontabili (ad es due unità di misura diversa come il dollaro e l’euro)
calcolato come rapporto tra la deviazione standard e la media della
distribuzione. È anche detto coefficiente di dispersione.
Nessun commento:
Posta un commento