Post di Datapizza

Visualizza la pagina dell’organizzazione di Datapizza, immagine

128.529 follower

Questo fenomeno può causare problemi quando costruisci modelli di regressione lineare. 📈 Stiamo parlando della Multicollinearity, che si verifica quando due o più variabili predittive in un modello di regressione sono altamente correlate tra loro. Facciamo un esempio 👇 Immagina di avere un dataset con due variabili: altezza e peso. Se queste variabili sono strettamente correlate (le persone più alte tendono ad essere più pesanti), il tuo modello potrebbe avere difficoltà a distinguere l'effetto individuale di ciascuna variabile sulla variabile di risposta. Ma quali sono i pro e i contro della multicollinearità? 👇 Pro: ✅ Può indicare relazioni interessanti tra le variabili predittive. Contro: ❌ Può rendere difficile interpretare i coefficienti di regressione. ❌ Può aumentare la varianza dei coefficienti, rendendoli instabili. ❌ Può portare a conclusioni fuorvianti sul significato delle variabili. Come si può rilevare? Ci sono diverse tecniche: 1️⃣ Matrice di correlazione: Controlla le correlazioni a coppie tra le variabili predittive. 2️⃣ Variance Inflation Factor (VIF): Misura quanto la varianza di un coefficiente di regressione aumenta a causa della multicollinearità. E come si può gestire? Ecco alcune opzioni: 🔸 Rimuovere una delle variabili correlate. 🔸 Combinare le variabili correlate in un unico predictor. 🔸 Usare tecniche di regolarizzazione come Ridge Regression o Lasso. Comprendere questo concetto è cruciale per costruire modelli di regressione affidabili e interpretabili. 💡 E tu, hai mai incontrato la multicollinearità nei tuoi progetti di data science? Facci sapere nei commenti! 💬 #datascience #statistics #regression

  • Nessuna descrizione alternativa per questa immagine

Il problema della multicollinearità è strettamente legata alla quasi singolarità della matrice XtX. Per capire bene il tutto bisogna partire dalle p equazioni normali del metodo dei Minimi Quadrati, si ha soluzione se è solo se la matrice XtX è invertibile. XtX è invertibile se il det della matrice è > 0. Se il det della matrice è maggiore di 0 allora si ha rango pieno e la matrice è invertibile. Ricordo inoltre che rango pieno significa avere il numero massimo di righe e colonne linearmente indipendenti, cioè che non possono essere scritte come combinazione lineari fra di loro escludendo appunto relazioni lineari fra le colonne della matrice dei dati. Detto questo nel caso di Collinearità Perfetta, il det della matrice XtX è esattamente uguale a zero e il metodo dei minimi quadrati non è applicabile, mentre per quanto riguarda la multicollinearità la situazione diventa più ambigua, perché il determinate non è esattamente pari a zero ma molto vicino, questo porta una determinante comunque maggiore di zero, la possibilità di applicare il metodo OLS ma con conseguenze sulla varianza del j esimo stimatore del j coefficiente.

Federico Molitierno

Digital Marketing Specialist | Appassionato di tecnologia e innovazione con una forte inclinazione per l'intelligenza artificiale e l'analytics | UX/UI Analysis | Gaming e Metaverso.

2 mesi

Nel grafico nell'immagine le due variabili sono altezza e peso? Perché sembra esprimere una correlazione inversa, all'aumentare di a1 a2 diminuisce, mentre se fosse altezza e peso (come da voi detto) dovrebbe ro crescere insieme. Corretto?

Non sempre risulta "banale" scegliere il metodo giusto per risolvere problemi di collinearità (PCA, Feature Selection, regressione Lasso o Ridge): dipende dal problema (classificazione, regressione, clustering,...), dal numero di features, da quanto queste sono correlate (correlazione alta, media), dalla varianza delle features, dal rumore nel dataset. La scelta del metodo lo determino attraverso un algoritmo implementato ad hoc che analizza il dataset e applica regole per la scelta del metodo più adatto.

Francesco Piccinelli Casagrande

Giornalista, Comunicazione, Dati

2 mesi

Una delle cose a cui pensare é che spesso due variabili collineari misurano la stessa cosa. Per cui, specie in ambito marketing, uno deve avere molto chiaro quello che vuole estrarre e che teoria ha relativamente al fenomeno che deve misurare. Secondariamente, specie con grandi dataset con tante variabili, non é forse meglio accettare che ci sia della collinearitá e magari studiarla usando tecniche di riduzione dimensionale?

Andrea Vaccarella

CRM Specialist presso Atlas Concorde

2 mesi

La Ridge è particolarmente utile nei problemi ill-posed: alla fine, quando non è possibile risolvere in toto il problema poiché determinato dal caso studio alla base, utilizzare un compromesso può essere veramente utile. Lo è stato infatti nella mia tesi sul Basketball Analytics dove lì sì, per costruzione, le variabili sono altamente correlate alla base

Junio Cristiano Caselli

Faccio crescere le imprese con il marketing, la sociologia, l'intelligenza artificiale, e tutto quello che serve per anticipare questo mondo veloce.

2 mesi

Convertire il peso e altezza in un rapporto e distribuire e regredire il rapporto. Così agli estremi avremo i più pesanti e i più bassi e dall'altra parte i più leggeri e più alti. Che probabilmente sono quelli che ci interessano di più.

Flavio Rubens Ottaviani

Executive 2°Level Master in Financial Management - Major Finance & Markets - Luiss Business School | Master degree IFIR - Sapienza | Bachelor Computer Engineering - Mercatorum | Intensive Programme: AI, Leadership, ML|

2 mesi

Si, inizialmente la gestimmo con la Ridge, ma per avere un output migliore, decidemmo di fare un'EDA approfondita. Comprendemmo che solo una delle tre variabili poteva essere REALMENTE usata per scopi scientifici, e la nostra ricerca migliorò nel complesso e nel significato. Grazie VIF! 🤣

Carmelo Fallauto

Ingegnere Elettronico, PhD - Startup e Innovazione

2 mesi

Se le due variabili sono così correlate perdere informazioni sulla singola variabile usando un unico predictor è in genere accettabile

Federico Milan

Digital Innovation Manager presso Breton S.p.A.

2 mesi

L2 regularization

Giulio Riggio

Dimensionality Reduction, R, Python, Data scientist, PL/SQL

2 mesi

Me lo aspettavo un po diverso il grafico della Multicollinearity. E' fatto in R ?

Vedi altri commenti

Per visualizzare o aggiungere un commento, accedi