Questo fenomeno può causare problemi quando costruisci modelli di regressione lineare. 📈 Stiamo parlando della Multicollinearity, che si verifica quando due o più variabili predittive in un modello di regressione sono altamente correlate tra loro. Facciamo un esempio 👇 Immagina di avere un dataset con due variabili: altezza e peso. Se queste variabili sono strettamente correlate (le persone più alte tendono ad essere più pesanti), il tuo modello potrebbe avere difficoltà a distinguere l'effetto individuale di ciascuna variabile sulla variabile di risposta. Ma quali sono i pro e i contro della multicollinearità? 👇 Pro: ✅ Può indicare relazioni interessanti tra le variabili predittive. Contro: ❌ Può rendere difficile interpretare i coefficienti di regressione. ❌ Può aumentare la varianza dei coefficienti, rendendoli instabili. ❌ Può portare a conclusioni fuorvianti sul significato delle variabili. Come si può rilevare? Ci sono diverse tecniche: 1️⃣ Matrice di correlazione: Controlla le correlazioni a coppie tra le variabili predittive. 2️⃣ Variance Inflation Factor (VIF): Misura quanto la varianza di un coefficiente di regressione aumenta a causa della multicollinearità. E come si può gestire? Ecco alcune opzioni: 🔸 Rimuovere una delle variabili correlate. 🔸 Combinare le variabili correlate in un unico predictor. 🔸 Usare tecniche di regolarizzazione come Ridge Regression o Lasso. Comprendere questo concetto è cruciale per costruire modelli di regressione affidabili e interpretabili. 💡 E tu, hai mai incontrato la multicollinearità nei tuoi progetti di data science? Facci sapere nei commenti! 💬 #datascience #statistics #regression
Nel grafico nell'immagine le due variabili sono altezza e peso? Perché sembra esprimere una correlazione inversa, all'aumentare di a1 a2 diminuisce, mentre se fosse altezza e peso (come da voi detto) dovrebbe ro crescere insieme. Corretto?
Non sempre risulta "banale" scegliere il metodo giusto per risolvere problemi di collinearità (PCA, Feature Selection, regressione Lasso o Ridge): dipende dal problema (classificazione, regressione, clustering,...), dal numero di features, da quanto queste sono correlate (correlazione alta, media), dalla varianza delle features, dal rumore nel dataset. La scelta del metodo lo determino attraverso un algoritmo implementato ad hoc che analizza il dataset e applica regole per la scelta del metodo più adatto.
Una delle cose a cui pensare é che spesso due variabili collineari misurano la stessa cosa. Per cui, specie in ambito marketing, uno deve avere molto chiaro quello che vuole estrarre e che teoria ha relativamente al fenomeno che deve misurare. Secondariamente, specie con grandi dataset con tante variabili, non é forse meglio accettare che ci sia della collinearitá e magari studiarla usando tecniche di riduzione dimensionale?
La Ridge è particolarmente utile nei problemi ill-posed: alla fine, quando non è possibile risolvere in toto il problema poiché determinato dal caso studio alla base, utilizzare un compromesso può essere veramente utile. Lo è stato infatti nella mia tesi sul Basketball Analytics dove lì sì, per costruzione, le variabili sono altamente correlate alla base
Convertire il peso e altezza in un rapporto e distribuire e regredire il rapporto. Così agli estremi avremo i più pesanti e i più bassi e dall'altra parte i più leggeri e più alti. Che probabilmente sono quelli che ci interessano di più.
Si, inizialmente la gestimmo con la Ridge, ma per avere un output migliore, decidemmo di fare un'EDA approfondita. Comprendemmo che solo una delle tre variabili poteva essere REALMENTE usata per scopi scientifici, e la nostra ricerca migliorò nel complesso e nel significato. Grazie VIF! 🤣
Se le due variabili sono così correlate perdere informazioni sulla singola variabile usando un unico predictor è in genere accettabile
L2 regularization
Me lo aspettavo un po diverso il grafico della Multicollinearity. E' fatto in R ?
Il problema della multicollinearità è strettamente legata alla quasi singolarità della matrice XtX. Per capire bene il tutto bisogna partire dalle p equazioni normali del metodo dei Minimi Quadrati, si ha soluzione se è solo se la matrice XtX è invertibile. XtX è invertibile se il det della matrice è > 0. Se il det della matrice è maggiore di 0 allora si ha rango pieno e la matrice è invertibile. Ricordo inoltre che rango pieno significa avere il numero massimo di righe e colonne linearmente indipendenti, cioè che non possono essere scritte come combinazione lineari fra di loro escludendo appunto relazioni lineari fra le colonne della matrice dei dati. Detto questo nel caso di Collinearità Perfetta, il det della matrice XtX è esattamente uguale a zero e il metodo dei minimi quadrati non è applicabile, mentre per quanto riguarda la multicollinearità la situazione diventa più ambigua, perché il determinate non è esattamente pari a zero ma molto vicino, questo porta una determinante comunque maggiore di zero, la possibilità di applicare il metodo OLS ma con conseguenze sulla varianza del j esimo stimatore del j coefficiente.