Perria_Statistica_09_10

Views:
 
Category: Entertainment
     
 

Presentation Description

No description available.

Comments

Presentation Transcript

Slide 1:

CORSO DI STATISTICA Docente Dr. Carla Perria perria@asplazio.it UNIVERSITÀ CATTOLICA DEL SACRO CUORE CORSO DI LAUREA TRIENNALE IN INFERMIERISTICA ISTITUTO FIGLIE DI SAN CAMILLO SCUOLA PADRE LUIGI TEZZA - ROMA

Programma del corso - Statistica:

Programma del corso - Statistica Concetti base: utilizzazioni della statistica, statistica descrittiva, statistica inferenziale, variabilità, popolazione, campione, unità statistica, variabili, modalità, tipologie di dati Presentazione dei dati: le tabelle Presentazione dei dati: i grafici Misure di sintesi numerica: indici di tendenza centrale, indici di dispersione

Slide 3:

Concetti base

A cosa serve la statistica?:

A cosa serve la statistica? Nell’ultimo anno i prezzi sono aumentati? Quanti anni si vive in media in Italia? L’uso del casco riduce i danni da incidente con il motorino? L’uso delle cinture di sicurezza e dell’airbag riduce la mortalità da incidente automobilistico? L’uso della patente a punti ha ridotto il numero degli incidenti stradali? Chi vincerà le elezioni? Come sarà il tempo domani?

A cosa serve la (bio)statistica in medicina?:

A cosa serve la (bio)statistica in medicina? Quali fattori aumentano il rischio di avere un infarto? La mammografia è utile nella diagnosi precoce del tumore della mammella? Il farmaco x è utile nella cura della malattia y?

Perché la statistica è necessaria:

Perché la statistica è necessaria Per leggere, comprendere e interpretare correttamente documenti scientifici Per poter effettuare lavori e ricerche che prevedano la rilevazione e l’analisi dei dati

In sintesi: :

In sintesi: La statistica serve principalmente a: raccogliere e organizzare dati per descrivere la realtà (es. database ospedaliero, archivi); a generalizzare le esperienze a partire dall’osservazione di gruppi ristretti (es. studio della relazione tra fumo e incidenza del Ca polmonare). La statistica è la scienza della rappresentazione e della elaborazione di dati relativi ad una popolazione

Principi fondamentali:

Principi fondamentali La statistica è una scienza delle popolazioni La statistica lavora su serie di dati provenienti da gruppi di soggetti La statistica è una scienza esatta La statistica tratta numeri secondo leggi matematiche La statistica è una scienza probabilistica La statistica non tratta rapporti “puri” di causa-effetto, ma misura la probabilità del verificarsi di un fenomeno come conseguenza di un determinato fattore

Slide 9:

Statistica descrittiva e statistica inferenziale La statistica descrittiva organizza e sintetizza le osservazioni e consente di ottenere una visione di insieme dei dati. Gli strumenti utilizzati sono: tabelle, grafici, misure di sintesi numerica e di dispersione La statistica inferenziale permette di generalizzare i risultati ottenuti dai dati raccolti in un campione ad una popolazione più ampia. Tale processo di generalizzazione è definito inferenza. Viene usata per quantificare la probabilità che una deduzione basata sull’analisi dei dati raccolti su una fetta di popolazione (campione) sia vera per tutta la popolazione .

Obiettivi della statistica:

Obiettivi della statistica Descrivere e riassumere i dati Da un insieme di dati ottenere pochi indici di sintesi in grado di evidenziare importanti proprietà della popolazione Individuare e definire le relazioni tra le variabili Identificare e misurare il grado di associazione tra le variabili (rapporti causa-effetto) Fare previsioni Sulla base dei dati raccolti su un campione prevedere i valori che ci si aspetta di trovare nella popolazione dal quale il campione è estratto

Obiettivi della statistica: esempi:

Obiettivi della statistica: esempi Descrivere e riassumere i dati Quanti i pazienti maschi ricoverati? Qual è la % di popolazione immigrata Individuare le relazioni tra le variabili Che relazione c’è tra fumo e cancro del polmone? Fare previsioni Qual è la probabilità di un paziente immunodepresso di contrarre un’infezione ospedaliera?

La variabilità e le variabili:

La variabilità e le variabili Uno dei motivi per cui è nata e si è sviluppata la statistica è la consapevolezza della diversità esistente tra gli esseri viventi. Tale variabilità riguarda molteplici aspetti, di natura biologica, psicologica, sociale, culturale, economica ecc. I caratteri degli esseri viventi, che possono assumere connotazioni differenti in diversi soggetti ed anche nel medesimo soggetto in momenti diversi, vengono denominati variabili. La variabile, pertanto, è un qualunque carattere che può essere oggetto di osservazione e misurazione.

Variabili indipendenti e variabili dipendenti:

Variabili indipendenti e variabili dipendenti La variabile indipendente è quella che cambiando determina modifiche della variabile dipendente. Può essere un intervento prodotto dal ricercatore oppure ciò che cambia di per sé (es. il tempo) La variabile dipendente è il risultato di interesse che dovrebbe modificarsi in risposta alla variabile indipendente Esempio: un gruppo di ragazzi viene sottoposto al trattamento con un nuovo farmaco contro l’acne. La variabile indipendente è il trattamento con il nuovo farmaco, la variabile dipendente è l’acne.

Slide 14:

Terminologia statistica - 1 Unità statistica: è l’unità di osservazione: può essere la persona: es paziente, infermiere, medico ecc; oppure un insieme di persone: la famiglia, un gruppo etc. Carattere (o variabile): caratteristica presentata da ciascuna unità statistica: sesso, esito di un test diagnostico, numero di figli, pressione. Modalità o attributo: tutti i possibili modi di presentazione di un carattere. Esempi: sesso: maschio/femmina; esito di un test diagnostico: +, ++, +++; numero di figli: 0, 1, 2; pressione: 150/100; 120/80 etc.

Terminologia statistica - 2:

Terminologia statistica - 2 Campione: numero limitato di unità statistiche . Da questo vengono rilevati i dati. Esempi: i pazienti ricoverati in un determinato reparto, i pazienti diabetici assistiti da un medico di famiglia, ecc. Popolazione (o universo statistico): universo delle unità statistiche dal quale il campione viene estratto. Da questa è più difficile rilevare i dati Esempi: tutti i pazienti ricoverati in un ospedale, tutti gli assistiti di un medico di famiglia.

Slide 16:

POPOLAZIONE (es. tutti gli impiegati) Statistica: concetti fondamentali Carattere statistico o “variabile” (es. colore del vestito) Modalità o “valore“ o “dato” (es. azzurro) CAMPIONE (es. alcuni impiegati) Proprietà di un campione casuale Ogni unità della popolazione ha la stessa probabilità di essere scelta La scelta di una unità non influenza la selezione delle altre Unità statistica (es. 1 persona)

Slide 17:

Tipologie dei dati ed esempi Categorici binomiali Categorici nominali Categorici ordinali Numerici discreti Numerici continui Sesso M/F Malattia Si/No Evento Vero/Falso Scommessa Vinta/Persa Lavoro Medico, Avvocato, Gruppo sanguigno 0,A,B,AB Nazionalità Italiana,... Stato Civile Libero, Coniugato,. Patologia codici standard Titolo di studio Elementari, Medie,... Gravità stadi tumorali Classi di esposizione Non fuma, lieve fum., medio fum., forte fum. CONTE DI EVENTI n° decessi n° figli n° abitanti n° esami svolti n° piastrine MISURE TECNICHE temperatura altezza (lunghezza) peso durata nel tempo L ’unità di misura NON È frazionabile L ’unità di misura È frazionabile

Slide 18:

Tipologie di dati: come orientarsi? Categorici DATI Categorici binomiali Numerici Le modalità sono ordinabili? Le modalità esprimono Quante modalità sono possibili? Le modalità sono solo numeri interi? Classi Valore soglia (cutoff) Approssimazione Quantità Qualità 2 > 2 Trasformazione Categorici ordinali Sì Categorici nominali No Numerici discreti Sì Numerici continui No

Tipologie di dati:

Tipologie di dati Dati categorici binomiali Sono possibili solo due modalità della variabile (es: M/F; vivo/morto; vero/falso; promosso/bocciato) Dati categorici nominali Indicano il nome della variabile in osservazione (es. regione, ospedale, nazione, scuola, Luca, Giovanna….) Dati numerici discreti Variabili che si misurano con numeri interi (conte di eventi: numero figli, numero giorni, numero partner etc…) Dati numeri continui Variabili che si misurano con frazioni di numeri interi (misure tecniche: peso, altezza, pressione sanguigna etc..)

Dati categorici ordinali: esempi:

Dati categorici ordinali: esempi Es. Classi scolastiche: I, II, III media Es. gradi nella carriera militare: sergente, caporale, …., generale Es. Assegnazione di punteggi a determinati livelli di certe condizioni: es: Punteggio di APGAR, indicato per valutare le condizioni del neonato (da un minimo di 0 a un massimo di 10) Es. Classificazione TNM dei tumori maligni sulla base dell’estensione anatomo-patologica Es. Classificazione HYHA dello scompenso cardiaco cronico sulla base della presenza e gravità dei sintomi

Passaggio da una tipologia a un’altra:

Passaggio da una tipologia a un’altra Da dati numerici continui a dati categorici binomiali (soglia) Es. <140 mmhg (ipertensione no); >140 mmhg (ipertensione sì) Da dati numerici continui a dati numerici discreti Per approssimazione (es temperatura da 37 a 37.4 si approssima a 37°c: da 37.5 a 37.9 si approssima a 38) Da dati numerici discreti a categorici ordinali (es da 1 a 4 sigarette al giorno: lieve fumatore; da 5 a 10: moderato fumatore; da 11 a 25: intenso fumatore) Da dati numerici discreti a categorici binomiali (soglia) (es. da 1 a 2 figli: bassa genitorialità; = o > 3 figli: alta genitorialità)

Esercitazione 1:

Esercitazione 1 Estratto dello studio Obiettivo : Identificare i fattori di rischio per infezione della ferita chirurgica Metodi Sono stati rilevati i dati da 1483 pazienti dimessi dal reparto di chirurgia di un grande ospedale I dati rilevati riguardavano l’età, il sesso, le malattie di base, il punteggio ASA (anestesiologico, che misura sinteticamente le condizioni di salute prima dell’intervento chirurgico) Leggere l’estratto dello studio (riportato a sinistra) e rispondere alle seguenti domande: Qual è la popolazione di riferimento? Qual è il campione sotto osservazione? A che tipologie di dati appartengono le variabili considerate?

Esercitazione 2:

Esercitazione 2 Dire che tipo di variabili sono considerate negli esempi sottostanti? Come è in generale la tua salute? Molto buona, buona, così così, scadente Che reparto frequenti? Sei sposato? Quanti esami hai superato finora? Qual è lo stadio di malattia di quel paziente? Qual è la tua frequenza cardiaca a riposo?

Slide 24:

Le tabelle

Le tabelle:

Le tabelle Rappresentano il metodo più elementare per il raggruppamento dei dati dopo che questi sono stati rilevati. Sono costituite dall’insieme di righe e di colonne (matrice). Sulle righe sono rappresentate le unità statistiche Sulle colonne sono rappresentate le variabili (i caratteri) Ad ogni unità statistica deve essere associato un codice identificativo univoco

Le tabelle:

Le tabelle Devono essere: Semplici e chiare Avere un titolo che ne descrive il contenuto Indicare la fonte dalla quale provengono i dati illustrati Spiegare in caselle di testo (legende) eventuali simboli e codici Evidenziare le unità di misura di colonne e righe Non devono contenere troppe variabili

Struttura tipo di una tabella:

Struttura tipo di una tabella

Le tabelle:

Le tabelle Tabelle analitiche per la registrazione dei dati: i dati e le rispettive modalità di tutte le unità statistiche vengono presentati: rappresentano la matrice dei dati Tabelle di sintesi dei dati: si sommano le frequenze dei caratteri Singola entrata (1 solo carattere) Entrata multipla (due o più caratteri)

Il punto di partenza: la matrice dei dati:

Il punto di partenza: la matrice dei dati Righe (unità statistiche) Colonne (variabili o caratteri) P ersone sulle ri ghe C aratteri sulle co lonne PriCco Caratteri qualitativi espressi con numeri (codifica) Modalità del carattere

Dare un’occhiata “esplorativa” ai dati:

Dare un’occhiata “esplorativa” ai dati È utile per identificare dati errati o mancanti

Slide 31:

La matrice dei dati è detta anche data-set: a sinistra è riportato il data-set relativo a episodi di infezione ospedaliera in un reparto

Dalle tabelle analitiche a quelle di sintesi:

Dalle tabelle analitiche a quelle di sintesi Dalle tabelle analitiche, in cui ogni riga è un’osservazione, si passa a tabelle di sintesi in cui nelle righe sono contenute le diverse modalità del carattere e nelle colonne le rispettive frequenze con cui quella modalità si esprime nel campione. Le frequenze altro non sono che conte e si ottengono sommando il numero di volte in cui quella modalità si ripete nel campione

Slide 33:

Le tabelle di sintesi dei dati - 1 Tabelle a singola entrata è presentata la distribuzione di frequenza di UN SOLO carattere statistico; prima riga: modalità che il carattere può assumere; prima colonna: frequenza con la quale la modalità è stata rilevata nel campione oggetto di studio. Tabelle a doppia entrata è presentata la distribuzione di frequenza di DUE caratteri statistici, il primo sulle righe e il secondo sulle colonne prima colonna: modalità che il primo carattere può assumere; prima riga: modalità che il secondo carattere può assumere; caselle: frequenze con le quali le modalità dei due caratteri sono state rilevate nel campione oggetto di studio.

Slide 34:

Le tabelle di sintesi dei dati - 2 I dati sono riportati nei seguenti formati: Dati nominali ed ordinali indicazione di tutte le modalità Dati numerici discreti e continui dati aggregati per classi (invece di riportare tutte le modalità) ad es. età (es. classi quinquennali dell’ISTAT) Valori di pressione arteriosa, altezza, peso

Slide 35:

Tabelle di sintesi dei dati-3 Le frequenze Frequenza assoluta Numero di unità statistiche aventi una specifica modalità del carattere. Esempio: numero di pazienti con infezione urinaria ricoverati nel reparto di medicina. Frequenza relativa È calcolata come rapporto tra la frequenza assoluta e la numerosità delle osservazioni (N): Fr= Fa/N. 0  Fr  N Esempio: numero di pazienti con infezione urinaria ricoverati nel reparto di medicina rispetto al totale dei pazienti ricoverati nel medesimo reparto. Può essere espressa in termini percentuali.

Tabelle di sintesi dei dati-3 Le frequenze:

Tabelle di sintesi dei dati-3 Le frequenze Frequenza cumulativa In una tabella nella quale i dati numerici sono presentati nelle righe in classi ordinate, la frequenza cumulativa, assoluta o percentuale, è la somma delle frequenze di tutte le classi precedenti a quella considerata e della frequenza di quest’ultima. Perché il calcolo della frequenza cumulativa abbia un senso, è necessario che all'interno della distribuzione sia presente un qualche tipo di ordinamento Impossibile da calcolare per le variabili categoriche nominali e binomiali

Slide 37:

Tabelle: Singola entrata, Variabile Binomiale Partendo da questi dati grezzi: M F Freq. assoluta Freq. relativa 7 6 13 7/13 6/13 Tot . Sesso Carattere Modalità Indice rappresentato Conta dei soggetti che nel campione presentano quella specifica modalità Record Campo

Tabella a singola entrata, variabile numerica:

Tabella a singola entrata, variabile numerica Nel caso di variabili numeriche se le modalità sono un numero ridotto si riportano le frequenze di tutti i valori, altrimenti si raggruppano in classi

Slide 39:

Tabelle: Singola entrata, Variabile Numerica Partendo da questi dati grezzi: 10-29 Freq. assoluta Freq. relativa 6 3 13 6/13 3/13 Tot. Età Carattere Indice rappresentato 30-39 >39 4 4/13 Freq. cumulativa Classi di Modalità 6/13 13/13 10/13 Conta dei soggetti che nel campione presentano quella specifica modalità In questo caso, ha senso la frequenza cumulativa ! Campo Record

Slide 40:

Tabelle: Doppia entrata, Variabile Ordinale Partendo da questi dati grezzi: non M F 2 1 7 4 0 Tot. Esposizione Carattere 1 lieve medio 3 0 Tot. Modalità del carattere 1 Modalità del carattere 2 1 2 forte Carattere 2 Sesso 6 6 3 1 3 13 Conta dei soggetti nel campione che presentano la combinazione di entrambe le modalità Campo Record

Tabelle a doppia entrata:

Tabelle a doppia entrata Ciascuna casella riporta la frequenza delle unità statistiche (es. persone) che possiedono sia la variabile 1 che la variabile 2 Sono utili per valutare l’eventuale associazione fra le due variabili (nell’esempio sotto A:personalità aggressiva;B:personalità mite)

Tabelle a doppia entrata:

Tabelle a doppia entrata Abitudine al fumo Evento coronarico no Evento coronarico sì Totale Non fumatore 10 90.91 1 9.09 11 100.00 Fumatore 9 81.82 2 18.18 11 100.00 Forte fumatore 8 61.54 5 38.46 13 100.00 Totale 27 77.14 8 22.86 35 100.00 Per valutare associazioni è opportuno calcolare le frequenze relative (in questo caso % di riga)

Peso di 100 neonati (kg) (matrice dei dati):

3.2 3.0 2.9 2.8 3.1 3.1 3.1 3.1 3.1 3.4 2.9 3.4 2.5 3.0 3.5 3.1 3.0 3.2 3.6 3.3 3.1 3.3 3.1 3.4 2.9 3.2 2.8 3.3 3.2 2.8 2.9 2.6 3.0 3.1 3.1 3.0 3.0 2.9 2.9 3.1 2.8 3.1 3.3 3.0 2.8 3.1 3.5 3.2 3.3 2.8 3.0 3.3 3.1 2.7 3.0 3.2 3.6 2.9 2.9 3.4 3.3 3.1 3.1 3.2 2.9 3.0 3.4 2.7 3.2 3.5 3.4 3.2 3.0 2.6 3.3 3.5 3.1 2.8 3.4 3.0 2.7 3.0 3.2 3.2 2.9 3.1 2.7 3.1 3.0 3.3 3.3 3.0 2.9 3.2 3.3 3.2 3.7 3.2 3.1 3.2 Peso di 100 neonati (kg) (matrice dei dati) Classi di frequenza

Esercitazione :

Esercitazione 3.2 3.0 2.9 2.8 3.1 3.1 3.1 3.1 3.1 3.4 2.9 3.4 2.5 3.0 3.5 3.1 3.0 3.2 3.6 3.3 3.1 3.3 3.1 3.4 2.9 3.2 2.8 3.3 3.2 2.8 2.9 2.6 3.0 3.1 3.1 3.0 3.0 2.9 2.9 3.1 2.8 3.1 3.3 3.0 2.8 3.1 3.5 3.2 3.3 2.8 3.0 3.3 3.1 2.7 3.0 3.2 3.6 2.9 2.9 3.4 3.3 3.1 3.1 3.2 2.9 3.0 3.4 2.7 3.2 3.5 3.4 3.2 3.0 2.6 3.3 3.5 3.1 2.8 3.4 3.0 2.7 3.0 3.2 3.2 2.9 3.1 2.7 3.1 3.0 3.3 3.3 3.0 2.9 3.2 3.3 3.2 3.7 3.2 3.1 3.2 Costruisci una tabella a singola entrata con la variabile peso dei neonati

Peso di 100 neonati (kg) (tabella di frequenza a singola entrata):

Peso di 100 neonati (kg) (tabella di frequenza a singola entrata) Kg Conteggi Frequenza 2.5 I 1 2.6 II 2 2.7 IIII 4 2.8 IIIIIII 7 2.9 IIIIIIIIIII 11 3.0 IIIIIIIIIIIIIII 15 3.1 IIIIIIIIIIIIIIIIIIII 20 3.2 IIIIIIIIIIIIIII 15 3.3 IIIIIIIIIII 11 3.4 IIIIIII 7 3.5 IIII 4 3.6 II 2 3.7 I 1

Esercitazione :

Esercitazione Costruire una tabella a doppia entrata con le variabili sesso e abitudine al fumo. Calcolare frequenze assolute e relative

Esercitazione :

Esercitazione Non fumatore Fumatore Totale Maschi 2 28.6 5 71.4 7 100.00 Femmine 3 50 3 50 6 100.00 Totale 5 38.5 8 61.5 13 100.00 In questa tabella le frequenze relative sono espresse come percentuali di righe, ma con lo stesso significato è possibile calcolare le percentuali di colonna

Tabelle a n entrate:

Tabelle a n entrate Nella tabella sottostante è riportata una tabella a tre entrate con tre variabili Tipo di personalità Abitudine al fumo Evento coronarico acuto

Slide 49:

I grafici

I grafici:

I grafici Un grafico è caratterizzato da un sistema di assi cartesiani che delimitano un’area (area grafica) nella quale sono posizionati punti, linee, barre, la cui posizione, lunghezza o area indicano la quantità delle variabili misurate. Il titolo spiega il contenuto del grafico Asse delle x Asse delle y

Elementi della struttura di un grafico:

Elementi della struttura di un grafico

Criteri per la costruzione di un grafico:

Criteri per la costruzione di un grafico Riferimento spaziale: piano cartesiano (tranne che per i diagrammi a torta) Assegnazione all’asse x (ascisse) della variabile indipendente (il più delle volte il tempo) ed all’asse y (ordinate) della variabile dipendente (es. temperatura, peso, colesterolemia etc.) Indicare sugli assi le unità di misura delle variabili scegliendo una lunghezza appropriata per ciascuno di essi Un grafico deve essere sufficientemente leggibile da permetterne una chiara lettura (utili legende esplicative) Tabelle e grafici sono spesso alternativi: evitare di utilizzare entrambi gli strumenti per presentare gli stessi dati

Principali tipi di grafici:

Principali tipi di grafici Diagrammi a torta Diagrammi lineari Diagramma a barre (semplici, composte, appaiate) Istogrammi Diagrammi di dispersione Mappe

Slide 54:

Diagrammi a torta Può essere rappresentato un solo carattere Le modalità del carattere sono rappresentate da spicchi della torta L’area dello spicchio è proporzionale alla frequenza relativa della modalità Utilizzare i colori più vivi per gli spicchi più piccoli

Costi sanitari delle malattie CV:

Costi sanitari delle malattie CV

Slide 56:

Diagrammi lineari Ciascun punto sul grafico rappresenta una coppia di modalità A ciascun valore sull’asse x corrisponde un solo valore sull’asse y I punti adiacenti sono collegati da linee rette In genere, la scala sull’asse x rappresenta il tempo : è così possibile seguire il comportamento del carattere riportato in y in un determinato periodo

Slide 57:

Incidenza di tumore della mammella Banca Dati Associazione italiana dei registri tumori (AIRTUM), 2008

Slide 58:

Banca Dati Associazione italiana dei registri tumori (AIRTUM), 2008 Incidenza di tumore del polmone

Mortalità per ictus:

Mortalità per ictus European Cardiovascular Diseases Statistics, 2008

Slide 60:

Diagrammi a barre Sono generalmente usati per rappresentare distribuzioni di frequenza di caratteri categorici. Le modalità sono riportate in ascissa (asse X qualitativo ) Per ogni modalità si costruisce un rettangolo: la posizione della base del rettangolo (di larghezza costante) è centrata sul nome della modalità l’altezza del rettangolo è proporzionale alla frequenza rilevata per la modalità La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi

Diagrammi a barre:

Diagrammi a barre Sull’asse delle ordinate può essere rappresentata anche la frequenza relativa (% rispetto al totale)

Slide 63:

Diagrammi a barre composte quando le modalità sono 2 si gioca sul colore

Diagrammi a barre appaiate: in questo caso la legenda è indispensabile:

Diagrammi a barre appaiate : in questo caso la legenda è indispensabile

Esercitazione:

Esercitazione Costruisci un grafico a torta e uno a barre per la variabile abitudine al fumo

Esercitazione:

Esercitazione Costruisci un grafico a barre appaiate con le variabili sesso e abitudine al fumo

Istogramma: definizione:

Istogramma: definizione Un istogramma è un grafico in cui sono rappresentati dati numerici continui. Questi dati sono raggruppati in classi, i cui intervalli sono riportati sull’asse orizzontale e le frequenze associate a ciascuna classe sono riportate sull’asse verticale. Le frequenze determinano l’altezza delle barre che insistono sui punti medi e vengono disegnate una di fianco all’altra

Istogrammi: da dove si parte:

Tabella non ordinata Tabella sintetica Raggruppamento in classi Numero di pazienti visitati in un giorno di tirocinio da 30 studenti del Corso di Laurea in Infermieristica 5 classi Istogrammi: da dove si parte Tabella ordinata Ordinamento

Slide 70:

Istogrammi: dove si arriva 1 2 3 4 5 6 7 8 9 10 11 12 13 0-4 5-9 10-14 15-19 20-24 Classi di numerosità di pazienti visitati N° studenti Pazienti visitati da studenti di Infermieristica Utilizzati per rappresentare distribuzioni di frequenza di caratteri numerici (continui o discreti) I dati vengono divisi in classi: in questo caso 5 classi. Per ogni gruppo si costruisce un rettangolo; la posizione della base del rettangolo corrisponde ai margini dell’intervallo ed il suo centro corrisponde al centro della classe (asse x quantitativo); l’area del rettangolo è proporzionale alla frequenza rilevata per il gruppo

Istogrammi: dal data set al grafico:

Istogrammi: dal data set al grafico Il dataset (1) La tabella (2)

Istogrammi: dal data set al grafico:

Istogrammi: dal data set al grafico La tabella di sintesi (3) Il grafico (4) Ricorda: il raggruppamento abbassa il valore informativo del dato

Slide 73:

I numeri all’apice dei rettangoli rappresentano i valori puntuali di ciascuna classe di frequenza

UN UTILIZZO DELL’ISTOGRAMMA: LA PIRAMIDE DELL’ETÀ DELLA POPOLAZIONE:

UN UTILIZZO DELL ’ ISTOGRAMMA: LA PIRAMIDE DELL ’ ET À DELLA POPOLAZIONE Sull’ascissa da un lato: la frequenza delle classi di età nei maschi Sull’ascissa dall’altro: la frequenza delle classi di età nelle femmine Sull’ordinata: le classi di età

Slide 75:

Popolazione residente italiana e straniera al 1 gennaio 2004 PIRAMIDE DELLE ETÀ

Quali sono le differenze tra diagrammi a barre e istogrammi?:

Quali sono le differenze tra diagrammi a barre e istogrammi? Diagrammi a barre Istogrammi Caratteri Qualitativi Quantitativi Asse x Qualitativo Quantitativo

Esercitazione :

Esercitazione Costruisci un istogramma con la variabile peso

Slide 78:

Diagrammi di dispersione Sono utili per illustrare la relazione tra due diversi caratteri che assumono modalità numeriche Ogni punto del grafico rappresenta una unità statistica La scala per un carattere è riportata nell’asse x e la scala per l’altro nell’asse y Se i due caratteri non sono correlati, i punti si distribuiscono casualmente su tutto il piano cartesiano Relazione tra colesterolo e pressione arteriosa in 10 pazienti Pressione Arteriosa (mmHg) Colesterolo mg/100 ml

Diagrammi di dispersione:

Diagrammi di dispersione Se non c’è correlazione fra le variabili i punti si distribuiranno casualmente nell’area grafica

Diagrammi di dispersione:

Diagrammi di dispersione Se esiste una correlazione diretta all’aumentare di una variabile corrisponderà un aumento dell’altra (la linea è diretta dal basso all’alto e verso destra) Se esiste una correlazione inversa all’aumentare di una variabile corrisponderà la diminuzione dell’altra (la linea è diretta dall’alto in basso e verso destra) La correlazione è massima quando l’angolo formato con gli assi x e y è di 45 gradi Colesterolo mg/100 ml Pressione Arteriosa (mmHg)

Slide 81:

Numero di matrimoni per numerosità di popolazione in alcuni Stati USA

Slide 82:

Trend: linea di tendenza Clustering: raggruppamento Outliers: valori fuori range

Esercitazione:

Esercitazione Costruisci un diagramma a dispersione per le variabili peso e altezza

Le mappe:

Le mappe Consentono di rappresentare la distribuzione di un fenomeno nello spazio Le entità geografiche rappresentate possono essere varie: comuni, province, regioni, nazioni, ecc. L’intensità del fenomeno in ciascuna area può essere espressa con colori o altri accorgimenti grafici

Mortalità per tumore del polmone in comuni della Puglia (morti x 100.000):

Mortalità per tumore del polmone in comuni della Puglia (morti x 100.000)

Mortalità per malattie CV:

Mortalità per malattie CV European Cardiovascular Diseases Statistics, 2008

Dall’istogramma al poligono di frequenza:

Dall’istogramma al poligono di frequenza Un poligono di frequenza è formato da segmenti di linea retta che collegano i punti medi delle classi alle rispettive frequenze (date dall’altezza delle classi)

Poligono di frequenza:

Poligono di frequenza Si usa quando sull’asse delle X vi sono variabili numeriche continue Si usa quando il numero delle osservazioni è elevato o quando i gruppi di osservazione sono più di 2 Si usa quando le differenze fra i valori continui sono piccole Es. valori di pressione sistolica (100-105-110…mmHg) Es. valori di peso alla nascita (2.5-2.6-2.7…. Kg)

Come orientarsi fra i diversi tipi di grafici?:

Come orientarsi fra i diversi tipi di grafici? Dati categorici (nominali e ordinali): diagrammi a barre Dati numerici: fino a due gruppi di osservazioni: istogrammi oltre due gruppi di osservazioni: poligoni di frequenza

La simbologia statistica :

La simbologia statistica N numero di unità statistiche (soggetti) di un campione (es. numero di malati in un reparto di oculistica) n j numero di unità statistiche nel gruppo j di un campione (es. n u = numero di uomini nel reparto; n d = numero di donne nel reparto) X i valore del carattere studiato in ciascun individuo (i) del campione (es. valore del visus OD in ciascun ricoverato nel reparto) somma(toria) dei valori di X di ciascun individuo del campione da 1 a N (es. somma dei valori del visus OD per tutti i malati del reparto di oculistica) Media aritmetica dei valori x (es. media aritmetica dei valori di visus OD nei malati del reparto di oculistica) X

Le misure di sintesi numerica: a cosa servono?:

Le misure di sintesi numerica: a cosa servono? Consentono di sintetizzare in termini quantitativi l’andamento di un fenomeno, espresso da un insieme di misure, e hanno il vantaggio di essere confrontabili con misure analoghe rilevate in tempi e luoghi diversi. Es. reddito medio mensile = somma dei valori mensili percepiti nell'anno/12;

Le misure di sintesi numerica: quali sono?:

Le misure di sintesi numerica: quali sono? Misure o indici di tendenza centrale: individuano il punto o centro in cui le misure tendono a raccogliersi. Misure o indici di dispersione: descrivono la variabilità del fenomeno in studio rispetto al punto centrale.

Misure o indici di tendenza centrale:

Misure o indici di tendenza centrale Media aritmetica Mediana Moda

Slide 94:

Media aritmetica 1. Media aritmetica semplice É rappresentata dalla sommatoria dei valori di tutte le osservazioni diviso il loro numero: = = = 6 Es. media del visus OD dei ricoverati in oculistica Dati: 7, 9, 5, 4, 10, 1

Slide 95:

Media aritmetica 2. Media aritmetica ponderata In presenza di valori che si ripetono più volte, é possibile utilizzare la media aritmetica ponderata, rappresentata dalla sommatoria dei prodotti di ciascun valore per la sua frequenza f (o peso) diviso la somma delle frequenze: = Es. media del visus OD dei ricoverati in oculistica Dati: 7, 7, 9, 9, 9, 5, 5, 5, 5, 2 = = 6,3 Il “peso” esprime la frequenza con cui il dato si ripete nel campione

Media aritmetica:

Media aritmetica 3. La media aritmetica può essere calcolata, anche quando i dati sono espressi come intervalli di valori Esempio: calcolare la media dei valori di frequenza cardiaca in un campione di 20 persone Freq card Frequenza 40-49 2 50-59 4 60-69 6 70-79 4 80-89 3 90-99 1 Si prende il valore medio dell’intervallo e si applica la formula della media ponderata

Slide 97:

Limitazioni all’impiego della media aritmetica L’uso della media aritmetica come indice di tendenza centrale non é indicato nei seguenti casi: in presenza di dati non quantitativi; in presenza di ordini di grandezza delle misure troppo differenti : 0,8 7 58 124 (media aritmetica: 47,4); in presenza di valori estremi molto diversi dagli altri: 28 34 22,5 299 (media aritmetica: 95,9); in presenza di valori estremi indeterminati o infiniti: < 6 7 11 > 20

Slide 98:

Mediana È il valore che, dopo aver posto le osservazioni in ordine crescente o decrescente, divide la serie di dati in due gruppi di uguale numerosità, il 50% con valori inferiori ed il 50% con valori superiori. Dati originali: 2, 6, 3, 7, 4, 9, 10, 1, 5, 3, 8 Dati ordinati: 1, 2, 3, 3, 4, 5 , 6, 7, 8, 9, 10 Mediana: 5 Se i dati sono in numero pari la mediana è data dalla media aritmetica dei due valori centrali. Dati originali: 2, 6, 3, 7, 4, 9, 10, 1, 5, 3 Dati ordinati: 1, 2, 3, 3, 4, 5 , 6, 7, 9, 10 Mediana: media aritmetica tra 4 e 5 = 4,5

Caratteristiche della mediana:

Caratteristiche della mediana Per i caratteri nominali non è calcolabile. Invece si può calcolare per i dati ordinali Es. mediana del titolo di studio di un gruppo di tifosi ( E lementare, M edia, S uperiore, L aurea) Dati originali: E, M, M, M, M, S , S, S, S, S, L Mediana: S Non è sensibile ai valori estremi (è robusta). È il miglior indice di sintesi nelle distribuzioni asimmetriche. È da preferire alla media aritmetica quando, per la natura del fenomeno e soprattutto in presenza di un numero modesto di osservazioni , si hanno valori particolarmente bassi o elevati rispetto agli altri.

Mediana e media:

Mediana e media Esempio : il numero di vittime di ferite da arma da fuoco in alcuni paesi in 1 anno (casi ogni 5 milioni) Svizzera: 24 Giappone: 2 UK: 1 Svezia: 12 Canada: 8 Germania: 3 USA: 190 La media è 240/7: 34.3, valore che non rappresenta adeguatamente la tendenza centrale di tutte le osservazioni, è troppo spostato verso il valore estremo (190) La mediana invece, valore che sta al centro tra i primi 3 e gli ultimi 3 (8), la rappresenta più adeguatamente, in quanto si avvicina di più al maggior numero di osservazioni e non è influenzato dal valore estremo (190).

Slide 101:

Moda La moda è il dato che si presenta con maggiore frequenza Può essere determinata per tutti i tipi di dati statistici: Nominali Ripartizione di genere in una classe: M, F, M, M, F, M, F, M, F Moda: M Ordinali Titolo di studio modale di un gruppo di tifosi: S, E, S, L, E, M, S, M, M, M, S, S, E Moda: S Numerici Voto modale riportato agli esami di maturità: 75, 60, 81, 83, 94, 99, 64, 75, 82, 91, 94, 89, 94 Moda: 94

Esercitazione: dati di un gruppo di atleti:

Esercitazione: dati di un gruppo di atleti Calcolare: l’altezza media e mediana lo sport più praticato la media, la mediana e la moda del numero di infortuni

Distribuzione di frequenza:

Distribuzione di frequenza La distribuzione di frequenza è una tabella o un grafico (curva) che presenta in modo organizzato le frequenze con cui si presentano le modalità di un carattere in modo da poter individuare facilmente quali valori sono più frequenti e quali più rari

Media, mediana e moda:

Media, mediana e moda In una distribuzione di frequenza simmetrica (distribuzione normale) media, mediana e moda sono uguali Simmetrica Unimodale Media = Mediana = Moda

Media, mediana e moda:

Media, mediana e moda In una distribuzione di frequenza simmetrica a due picchi (bimodale) media e mediana sono uguali Simmetrica Bimodale Moda1 < Media = Mediana < Moda2

Media, mediana e moda:

Media, mediana e moda In una distribuzione di frequenza asimmetrica la media si posiziona nella direzione della asimmetria (la maggior parte dei dati biologici ha questa distribuzione di frequenza) Asimmetrica a destra (asimmetria positiva) Moda < Mediana < Media

Media, mediana e moda:

Media, mediana e moda Asimmetrica a sinistra (asimmetria negativa) Media < Mediana < Moda Nella curva asimmetrica a sinistra la coda si distribuisce lungo i valori bassi dell’asse delle X

Esercitazione:

Esercitazione Nella tabella sono contenuti i valori del peso (in libbre) di atleti appartenenti a 2 squadre diverse di canottaggio Calcolare la media e la mediana separatamente per i 2 equipaggi Costruire la distribuzione di frequenza del peso del gruppo di Cambridge (9 canottieri)

Slide 109:

Misure o indici di dispersione Le misure o indici di dispersione integrano e completano le informazioni fornite dagli indici di tendenza centrale, esprimendo la variabilità (o dispersione) dei dati rilevati rispetto alle misure di tendenza centrale. La variabilità, o dispersione, è un concetto chiave in statistica Popolazioni aventi la stessa media possono avere distribuzioni più o meno larghe dei dati

La variabilità di una distribuzione:

La variabilità di una distribuzione X i N i F i 10 1 0.01 20 2 0.02 30 94 0.94 40 2 0.02 50 1 0.01 Tot 100 1.00 Distribuzione A Distribuzione B X i N i F i 10 10 0.10 20 20 0.20 30 40 0.40 40 20 0.20 50 10 0.10 Tot 100 1.00 Moda= 30 Mediana = 30 Media = 30 Moda = 30 Mediana = 30 Media = 30 Le due distribuzioni possono dirsi uguali?

La variabilità di una distribuzione:

La variabilità di una distribuzione Le osservazioni della distribuzione A sono per la maggior parte in corrispondenza del valore medio Le osservazioni della distribuzione B sono più disperse rispetto al valore medio

Misure o indici di dispersione:

Misure o indici di dispersione Intervallo minimo-massimo Percentili Varianza Deviazione standard Coefficiente di variazione

Intervallo minimo-massimo (o range):

Intervallo minimo-massimo (o range) È la differenza tra il valore più alto e quello più basso della serie di dati. È la misura più semplice della variabilità Informa di quanto è ampia la distribuzione E’ utile in caso di poche osservazioni Es. 10 altezze (in cm) in 34 bambini 142, 153, 130, 140, 148, 142, 133, 143, 157, 150 Range?

Intervallo minimo-massimo (o range)-limiti:

Intervallo minimo-massimo (o range)-limiti Due serie di dati possono avere un intervallo minimo-massimo uguale ma i valori intermedi essere distribuiti in modo completamente diverso; è una misura imprecisa della variabilità i due unici valori conosciuti sono quelli estremi che sono spesso anche i più rari, e che vengono maggiormente influenzati da oscillazioni accidentali

Percentili :

Percentili Per calcolare i percentili di una serie di valori continui si suddividono i valori in 100 parti uguali Il 1° percentile è il valore della variabile che separa il 1° % della popolazione dal resto Il 2° percentile è il valore della variabile che separa il 2° % della popolazione dal resto …..e così via Ad esempio: pesi e altezze dei bambini Un bambino che superi il 90esimo percentile (di peso o altezza) avrà un peso (o un’altezza) superiore a quelli del 90% di tutti i bambini considerati

L’uso dei percentili: le curve di crescita:

L’uso dei percentili: le curve di crescita Le curve riportate nel grafico rappresentano alcuni percentili del peso di ragazze tra i 10 e i 20 anni di età

Quantili:

Quantili Il concetto di “percentile” deriva da quello di “quantile” Il quantile è la suddivisione di una serie di valori in gruppi di uguale numerosità: Quartili: 4 gruppi Quintili: 5 gruppi Decili: 10 gruppi Centili (percentili): 100 gruppi Il più delle volte si utilizzano i quartili 1° quartile: 25esimo percentile 2° quartile: 50 esimo percentile (mediana) 3° quartile: 75esimo percentile

Esempio:

Esempio Calcolo del 75esimo percentile in un campione di 13 osservazioni: 2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3 , 3.5, 4.0, 4.0 Si usa la formula: 75Xn/100 = 75X13/100= 9.75 Risultato: il 75esimo percentile corrisponde al valore che occupa la 10ma posizione, quindi nel nostro esempio 3.3 (il valore di 9.75, non essendo un numero intero è stato arrotondato per eccesso)

Slide 119:

Varianza È un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione. Si potrebbe studiare calcolando la media aritmetica dei semplici scarti ove lo scarto è la differenza tra il valore considerato e la media . Tuttavia, per la stessa definizione della media aritmetica, la somma degli scarti è pari a zero. Per evitare l’azzeramento della somma degli scarti, si calcola la media dei quadrati degli scarti denominata varianza: s 2 =

Caratteristiche della varianza:

Caratteristiche della varianza È valida soprattutto per i dati che seguono una distribuzione di frequenza normale È sensibile ai valori estremi La sua unità di misura non è quella della media, ma è il suo quadrato

Slide 121:

Deviazione standard o scarto quadratico medio E’ la misura di variabilità più comune Corrisponde alla radice quadrata della varianza: La deviazione standard fornisce un'indicazione numerica di quanto i dati siano vicini o lontani dalla media Caratteristiche e significato sono uguali a quelle della varianza . s =

Deviazione standard:

Deviazione standard Esempio: calcolo della deviazione standard dell’altezza (in cm) di 10 persone adulte 159, 164, 167, 168, 169, 170, 173, 173, 182, 182 Media = 1707/10= 170.7 DS: si applica la formula s =

Deviazione standard:

Deviazione standard Altezza Scarti dalla media Scarti dalla media 2 159 -11.7 136.89 164 -6.7 44.89 167 -3.7 13.69 168 -2.7 7.29 169 -1.7 2.89 170 -0.7 0.49 173 2.3 5.29 173 2.3 5.29 182 11.3 127.69 182 11.3 127.69 472.1 Si divide 472.1 (somma dei quadrati degli scarti) per il numero di osservazioni (10) Si fa la radice quadrata di 47.2 e si ottiene la DS = 6.87

Distribuzione normale (detta anche “gaussiana”):

Distribuzione normale (detta anche “gaussiana”) Media = mediana = moda σ = Deviazione standard Quasi tutti i fenomeni biologici (ma solo quando le osservazioni sono numerose) seguono questa distribuzione

Distribuzione normale:

Distribuzione normale E’ rappresentata da una curva liscia, simmetrica, a forma di campana Su entrambi i lati della curva normale c’è un punto di flesso in cui la curva passa da concava a convessa. Proiettando i punti di flesso sull’asse delle X si individuano due segmenti omogenei al di qua e al di là rispetto alla media e che corrispondono a +1DS e a -1DS. L’area sottesa è pari al 68,27% dell’area totale. Ciò vuol dire che del 100% delle osservazioni il 68,27% è compreso fra +1DS e -1DS. Il rimanente 32% rimane all’esterno e si distribuisce come 16% da un lato e 16% dall’altro (+2 e -2DS) (95,45% dell’area sottesa)

Deviazione standard in grafica su distribuzione di frequenza:

Deviazione standard in grafica su distribuzione di frequenza In questo intervallo cade il 68.7% delle misure rilevate In questo intervallo cade il 95.45% delle misure rilevate

Slide 127:

Coefficiente di variazione È il rapporto tra deviazione standard e media, espresso in forma percentuale : Utilizzando questo indice è possibile confrontare la variabilità di due o più campioni aventi medie differenti per stabilire quale dei due ha variabilità maggiore. CV % =

Coefficiente di variazione:

Coefficiente di variazione Esempio sulla crescita (in kg) di (a) neonati, (b) bambini di 3 anni, (c) bambini di 10 anni. La variabilità relativa si modifica con l’età? (a) neonati (media: 3.1 kg; DS: 0.23 kg; CV: 0.23/3.1 x 100: 7.4%) (b) bambini di 3 anni (media: 16 kg; DS: 4.5 kg; CV: 4.5/16 x 100: 28.1%) (c) bambini di 10 anni (media: 35 kg; DS: 13.8 kg; CV: 13.8/35 x 100: 39.4%) Risposta: la variabilità relativa aumenta con l’età

Indicazioni per l’uso degli indici di tendenza centrale e di dispersione :

Indicazioni per l’uso degli indici di tendenza centrale e di dispersione Tipo di carattere Nominale Ordinale Numerico Indici di tendenza centrale Moda Mediana Moda Media Mediana Moda Indici di dispersione - Intervallo minimo-massimo Deviazione standard Intervallo minimo-massimo Coefficiente di variazione

authorStream Live Help