logging in or signing up Lezione 10 Nickel Download Post to : URL : Related Presentations : Share Add to Flag Embed Email Send to Blogs and Networks Add to Channel Uploaded from authorPOINT Insert YouTube videos in PowerPont slides with aS Desktop Copy embed code: (To copy code, click on the text box) Embed: URL: Thumbnail: WordPress Embed Customize Embed The presentation is successfully added In Your Favorites. Views: 2799 Category: Education License: All Rights Reserved Like it (1) Dislike it (0) Added: June 18, 2007 This Presentation is Public Favorites: 0 Presentation Description No description available. Comments Posting comment... Premium member Presentation Transcript I MODELLI DI REGRESSIONE MULTIPLA: I MODELLI DI REGRESSIONE MULTIPLA Slide2: Argomenti della lezione Regressione multipla Analisi dei residui Test di significatività del modello Inferenza sui coefficienti di regressione Il modello di regressione polinomiale Variabili dummy Multicollinearità Costruzione del modello di regressione Regressione multipla: Regressione multipla Nell’equazione del modello di regressione multipla sono presenti due o più variabili esplicative. Ipotizzando una relazione lineare tra la variabile dipendente e ciascuna delle variabili esplicative: Regressione multipla: Regressione multipla Consideriamo il caso a due variabili esplicative: Nel modello di regressione semplice con variabile esplicativa X1, il coefficiente b1 rappresenta la variazione di Y in corrispondenza di una variazione unitaria di X1. Nel modello di regressione multipla con due variabili esplicative b1 tiene conto anche degli effetti della variabile X2. Esso indica di quanto varia Y in seguito ad una variazione unitaria di X1 rimanendo costante il valore di X2. Regressione multipla: Regressione multipla Il coefficiente di determinazione r2Y.12 rappresenta la proporzione di variabilità di Y spiegata dalle variabili esplicative. L’ r2 corretto tiene conto dei gradi di libertà e quindi del numero di variabili esplicative del modello. E’ utile per confrontare modelli che spiegano la stessa variabile dipendente con un numero diverso di variabili esplicative. Analisi dei residui: Analisi dei residui I primi tre grafici evidenziano eventuali specificazioni inesatte del modello nel caso il grafico dei residui presenti un andamento non casuale. Il terzo grafico serve per indagare sull’eventuale autocorrelazione dei residui. Per verificare l’autocorrelazione si può utilizzare anche la statistica di Durbin-Watson. Analisi dei residui: Analisi dei residui Nel grafico sopra sembra che i residui siano disposti casualmente rispetto ai valori previsti della variabile dipendente. Il modello è ben specificato. Test di significatività del modello: Test di significatività del modello La verifica sulla 'bontà' del modello di regressione multipla si può tradurre nel seguente sistema di ipotesi: Anche in questo caso la verifica d’ipotesi si basa sul concetto di variabilità ed è realizzata attraverso un test F: Test di significatività del modello: Test di significatività del modello La regola decisionale per il test F di significatività del modello è: La tabella riassuntiva della analisi della varianza per il test F è la seguente: Inferenza sui coefficienti di regressione: Inferenza sui coefficienti di regressione Per verificare l’ipotesi che un certo coefficiente di regressione bk sia uguale a 0 contro l’alternativa che il parametro sia diverso da 0 si ricorre al test t: La stima intervallare relativa al coefficiente di regressione bk è la seguente: Il modello di regressione quadratica: Il modello di regressione quadratica Il modello di regressione quadratica è un caso particolare di modello di regressione multipla, in cui le variabili esplicative sono X e X2. In base a questo modello infatti tra Y e X non esiste una relazione lineare bensì una relazione quadratica. Dopo aver stimato i coefficienti di regressione si perviene alla seguente: Il modello di regressione polinomiale: Il modello di regressione polinomiale Esempio: un produttore desidera ottenere una misura della qualità di un prodotto ma la procedura è troppo costosa. Decide allora di stimare questa misura (score 2) a partire dall’osservazione di un’altra misura (score 1) più semplice meno costosa da ottenere. La regressione lineare ci ha restituito una retta di regressione che ben si adatta ai dati: R2=0,96 test F e test t riportano un p-value pari a 0 portandoci a rigettare l’ipotesi che il coefficiente di regressione di X non sia significativo. L’analisi dei residui e della retta di regressione induce il sospetto che il modello sia ulteriormente migliorabile attraverso una specificazione di tipo polinomiale. Il modello di regressione polinomiale: Il modello di regressione polinomiale Specificando un modello polinomiale di terzo grado e procedendo alle stime dei minimi quadrati si ottiene: Il modello ottenuto è sicuramente migliore del primo perché R2=0,99. La curva di regressione sembra adattarsi bene ai dati e anche i residui appaiono distribuiti più casualmente intorno allo zero. La conferma del miglioramento si ha osservando il test t relativo al coefficiente di X3 (p-value = 0,022). Se tale coefficiente risulta significativamente non nullo il coefficiente di X2 non è invece significativo (p-value=0,863). Modelli con variabili dummy: Modelli con variabili dummy Variabili di tipo qualitativo possono essere inserite in un modello di regressione mediante l’uso delle variabili dummy. Se Xd è una variabile dummy che descrive una variabile qualitativa a due modalità: Esempio: si vuole stimare un modello in cui una certa variabile critica per la qualità di un prodotto (Y) viene espressa in funzione della percentuale di presenza di una certa materia prima (X1) e del fatto che tale materia prima sia fornita o meno da un determinato fornitore (X2). Modelli con variabili dummy: Modelli con variabili dummy Il modello di regressione stimato risulta: Ovvero se non si utilizza la materia prima fornita da Tizio vale in quanto X2=0; Per i prodotti in cui si utilizza la materia prima fornita da Tizio si ha in quanto X2=1. In pratica il valore della qualità misurato da Y è maggiore di 3,853 se si utilizza materia prima del fornitore Tizio. In base ai p-value dei test t entrambi i coefficienti risultano significativi. Per poter usare il modello considerato dobbiamo accertarci che il coefficiente di regressione per X1 non dipenda dall’uso della materia prima di Tizio. Bisogna studiare allora l’interazione tra le due variabili definita dal prodotto: X3 = X1 x X2 Il test t applicato per verificare la significatività di b3 riporta un p-value di 0,166 andgt; 0,05 =andgt; accetto l’ipotesi H0: b3 = 0 rispetto all’alternativa H1: b3 ≠ 0. Il termine di interazione non dà un contributo significativo al modello. La multicollinearità: La multicollinearità Uno dei problemi che si può presentare nello studio di un modello di regressione multipla è la multicollinearità presenza di un elevata correlazione tra le variabili esplicative. Conseguenze della multicollinearità: le variabili non forniscono informazioni aggiuntive ed è difficile valutare l’effetto di ciascuna di esse le stime dei coefficienti di regressione presentano elevata variabilità Valutazione della multicollinearità: Se per qualche j risulta VIFj andgt; 5 si può ritenere che c’è multicollinearità per la varabile Xj, se VIFj tende a 1 (valore minimo) c’è assenza di multicollinearità. Costruzione del modello di regressione: Costruzione del modello di regressione Dopo aver valutato la multicollinearità ed aver escluso eventuali variabili esplicative si procede alla costruzione del modello con le variabili rimanenti. Approccio step-wise: partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera significativa al miglioramento del modello o si elimina una variabile il cui coefficiente non è significativo. Approccio Best-Subset: si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo un certo criterio (per esempio osservando l’R2). Effettuare l’analisi dei residui da cui ricavare l’informazione sulla opportunità o meno di inserire un termine non lineare. Eventualmente rianalizzare il modello. You do not have the permission to view this presentation. In order to view it, please contact the author of the presentation.
Lezione 10 Nickel Download Post to : URL : Related Presentations : Share Add to Flag Embed Email Send to Blogs and Networks Add to Channel Uploaded from authorPOINT Insert YouTube videos in PowerPont slides with aS Desktop Copy embed code: (To copy code, click on the text box) Embed: URL: Thumbnail: WordPress Embed Customize Embed The presentation is successfully added In Your Favorites. Views: 2799 Category: Education License: All Rights Reserved Like it (1) Dislike it (0) Added: June 18, 2007 This Presentation is Public Favorites: 0 Presentation Description No description available. Comments Posting comment... Premium member Presentation Transcript I MODELLI DI REGRESSIONE MULTIPLA: I MODELLI DI REGRESSIONE MULTIPLA Slide2: Argomenti della lezione Regressione multipla Analisi dei residui Test di significatività del modello Inferenza sui coefficienti di regressione Il modello di regressione polinomiale Variabili dummy Multicollinearità Costruzione del modello di regressione Regressione multipla: Regressione multipla Nell’equazione del modello di regressione multipla sono presenti due o più variabili esplicative. Ipotizzando una relazione lineare tra la variabile dipendente e ciascuna delle variabili esplicative: Regressione multipla: Regressione multipla Consideriamo il caso a due variabili esplicative: Nel modello di regressione semplice con variabile esplicativa X1, il coefficiente b1 rappresenta la variazione di Y in corrispondenza di una variazione unitaria di X1. Nel modello di regressione multipla con due variabili esplicative b1 tiene conto anche degli effetti della variabile X2. Esso indica di quanto varia Y in seguito ad una variazione unitaria di X1 rimanendo costante il valore di X2. Regressione multipla: Regressione multipla Il coefficiente di determinazione r2Y.12 rappresenta la proporzione di variabilità di Y spiegata dalle variabili esplicative. L’ r2 corretto tiene conto dei gradi di libertà e quindi del numero di variabili esplicative del modello. E’ utile per confrontare modelli che spiegano la stessa variabile dipendente con un numero diverso di variabili esplicative. Analisi dei residui: Analisi dei residui I primi tre grafici evidenziano eventuali specificazioni inesatte del modello nel caso il grafico dei residui presenti un andamento non casuale. Il terzo grafico serve per indagare sull’eventuale autocorrelazione dei residui. Per verificare l’autocorrelazione si può utilizzare anche la statistica di Durbin-Watson. Analisi dei residui: Analisi dei residui Nel grafico sopra sembra che i residui siano disposti casualmente rispetto ai valori previsti della variabile dipendente. Il modello è ben specificato. Test di significatività del modello: Test di significatività del modello La verifica sulla 'bontà' del modello di regressione multipla si può tradurre nel seguente sistema di ipotesi: Anche in questo caso la verifica d’ipotesi si basa sul concetto di variabilità ed è realizzata attraverso un test F: Test di significatività del modello: Test di significatività del modello La regola decisionale per il test F di significatività del modello è: La tabella riassuntiva della analisi della varianza per il test F è la seguente: Inferenza sui coefficienti di regressione: Inferenza sui coefficienti di regressione Per verificare l’ipotesi che un certo coefficiente di regressione bk sia uguale a 0 contro l’alternativa che il parametro sia diverso da 0 si ricorre al test t: La stima intervallare relativa al coefficiente di regressione bk è la seguente: Il modello di regressione quadratica: Il modello di regressione quadratica Il modello di regressione quadratica è un caso particolare di modello di regressione multipla, in cui le variabili esplicative sono X e X2. In base a questo modello infatti tra Y e X non esiste una relazione lineare bensì una relazione quadratica. Dopo aver stimato i coefficienti di regressione si perviene alla seguente: Il modello di regressione polinomiale: Il modello di regressione polinomiale Esempio: un produttore desidera ottenere una misura della qualità di un prodotto ma la procedura è troppo costosa. Decide allora di stimare questa misura (score 2) a partire dall’osservazione di un’altra misura (score 1) più semplice meno costosa da ottenere. La regressione lineare ci ha restituito una retta di regressione che ben si adatta ai dati: R2=0,96 test F e test t riportano un p-value pari a 0 portandoci a rigettare l’ipotesi che il coefficiente di regressione di X non sia significativo. L’analisi dei residui e della retta di regressione induce il sospetto che il modello sia ulteriormente migliorabile attraverso una specificazione di tipo polinomiale. Il modello di regressione polinomiale: Il modello di regressione polinomiale Specificando un modello polinomiale di terzo grado e procedendo alle stime dei minimi quadrati si ottiene: Il modello ottenuto è sicuramente migliore del primo perché R2=0,99. La curva di regressione sembra adattarsi bene ai dati e anche i residui appaiono distribuiti più casualmente intorno allo zero. La conferma del miglioramento si ha osservando il test t relativo al coefficiente di X3 (p-value = 0,022). Se tale coefficiente risulta significativamente non nullo il coefficiente di X2 non è invece significativo (p-value=0,863). Modelli con variabili dummy: Modelli con variabili dummy Variabili di tipo qualitativo possono essere inserite in un modello di regressione mediante l’uso delle variabili dummy. Se Xd è una variabile dummy che descrive una variabile qualitativa a due modalità: Esempio: si vuole stimare un modello in cui una certa variabile critica per la qualità di un prodotto (Y) viene espressa in funzione della percentuale di presenza di una certa materia prima (X1) e del fatto che tale materia prima sia fornita o meno da un determinato fornitore (X2). Modelli con variabili dummy: Modelli con variabili dummy Il modello di regressione stimato risulta: Ovvero se non si utilizza la materia prima fornita da Tizio vale in quanto X2=0; Per i prodotti in cui si utilizza la materia prima fornita da Tizio si ha in quanto X2=1. In pratica il valore della qualità misurato da Y è maggiore di 3,853 se si utilizza materia prima del fornitore Tizio. In base ai p-value dei test t entrambi i coefficienti risultano significativi. Per poter usare il modello considerato dobbiamo accertarci che il coefficiente di regressione per X1 non dipenda dall’uso della materia prima di Tizio. Bisogna studiare allora l’interazione tra le due variabili definita dal prodotto: X3 = X1 x X2 Il test t applicato per verificare la significatività di b3 riporta un p-value di 0,166 andgt; 0,05 =andgt; accetto l’ipotesi H0: b3 = 0 rispetto all’alternativa H1: b3 ≠ 0. Il termine di interazione non dà un contributo significativo al modello. La multicollinearità: La multicollinearità Uno dei problemi che si può presentare nello studio di un modello di regressione multipla è la multicollinearità presenza di un elevata correlazione tra le variabili esplicative. Conseguenze della multicollinearità: le variabili non forniscono informazioni aggiuntive ed è difficile valutare l’effetto di ciascuna di esse le stime dei coefficienti di regressione presentano elevata variabilità Valutazione della multicollinearità: Se per qualche j risulta VIFj andgt; 5 si può ritenere che c’è multicollinearità per la varabile Xj, se VIFj tende a 1 (valore minimo) c’è assenza di multicollinearità. Costruzione del modello di regressione: Costruzione del modello di regressione Dopo aver valutato la multicollinearità ed aver escluso eventuali variabili esplicative si procede alla costruzione del modello con le variabili rimanenti. Approccio step-wise: partendo da un modello parziale si procede per passi e di volta in volta si aggiunge una variabile che contribuisce in maniera significativa al miglioramento del modello o si elimina una variabile il cui coefficiente non è significativo. Approccio Best-Subset: si valutano tutti i possibili modelli di regressione ricavabili da un certo insieme di variabili esplicative e si individuano i sottinsiemi migliori secondo un certo criterio (per esempio osservando l’R2). Effettuare l’analisi dei residui da cui ricavare l’informazione sulla opportunità o meno di inserire un termine non lineare. Eventualmente rianalizzare il modello.