Z kursu: Podstawy nauki o danych: Eksploracja danych
Dane analizy regresji
Z kursu: Podstawy nauki o danych: Eksploracja danych
Dane analizy regresji
- Algorytm, który wybierzesz, metoda, której używasz do pomiaru związku między zmiennymi, może znacząco wpłynąć na znaczenie i interpretację wyników. I są dwie ogólne klasy. Jednym z nich są klasyczne metody lub algorytmy regresji. Są to metody oparte na średnich lub średnich i kwadratowych odchyleniach od przewidywanych wartości. Istnieje również bardzo szeroka kategoria, którą można nazwać nowoczesnymi metodami. Są to alternatywne metody obliczania odległości i wyboru między predyktorami, które mogą być ze sobą skorelowane. Jeśli chodzi o metody klasyczne, istnieje jednoczesne wejście, w którym po prostu bierzesz całą masę zmiennych i wrzucasz je wszystkie naraz i widzisz, jak współpracują ze sobą jako zespół. Możesz także zrobić zablokowany wpis, w którym wybierasz grupę zmiennych, umieszczasz je, a następnie dodajesz drugą grupę, a następnie trzecią grupę. Albo jest krok po kroku. Jest to zautomatyzowana procedura, w której komputer wybiera jedną zmienną, która ma najwyższą korelację z wynikiem, wprowadza ją. Następnie jest coś, co nazywa się częściowymi korelacjami, gdzie komputer wybiera tę, która jest najwyższa, umieszcza ją i tak dalej. Brzmi to jak fajny sposób robienia rzeczy, przekazywania go danym. Ale stopniowe wejście, w wielu sytuacjach, jest bardzo podatne na nadmierne dopasowanie i uzyskanie modeli, które pasują tylko do tych dokładnych danych i wykorzystują przypadek. To problem, więc większość ludzi nie zaleca stopniowego wprowadzania. W rzeczywistości odradzają to dość mocno. Istnieją również metody nieliniowe. Więc jeśli masz relację krzywoliniową, nawet w ramach klasycznych metod, istnieją sposoby radzenia sobie z tym, zwykle poprzez przekształcenie zmiennej lub uzyskanie mocy zmiennej. W klasie nowoczesnych metod istnieje regresja LASSO, co oznacza Least Absolute Shrinkage and Selection Operator. To dobry sposób na zrobienie czegoś podobnego do regresji stopniowej, ale bez ryzyka nadmiernego dopasowania i załamania uogólnienia. Istnieje również regresja najmniejszego kąta, która jest powiązana w pewien sposób. Istnieje RFE, który jest rekurencyjną eliminacją funkcji, coś w rodzaju procedury krokowej, ale w rzeczywistości jest w klasie wbudowanych metod i jest często używany z maszynami wektorowymi do uczenia maszynowego. I na ten sam temat uczenia maszynowego, bardzo podobny do tego, co nazywa się maszyną wektora wsparcia lub SVM, istnieje regresjer wektora wsparcia lub SVR. Wykorzystuje bardzo zaawansowane, wysokowymiarowe obliczenia oparte na tak zwanej sztuczce jądra, aby znaleźć hiperpłaszczyznę, coś w rodzaju płaskiej płaszczyzny, która może oddzielić dane i przewidzieć wartości bardzo czysto. Z drugiej strony, RFE, a zwłaszcza regresja wektora wsparcia, mogą być bardzo trudne do interpretacji. W rzeczywistości, kiedy patrzysz na te różne metody, jest kilka rzeczy, o których chcesz pomyśleć. Po pierwsze: jak dobrze ta metoda może wyjaśnić obecne dane? Jak dobrze może modelować związek między predyktorami, które mam przed sobą, a wynikiem, który mam przed sobą? Niektórzy są w tym lepsi niż inni. Mogą to jednak zrobić poprzez nadmierne dopasowanie, co jest prawdziwym problemem. I to prowadzi nas do następnego: jak dobrze każda metoda uogólnia się na nowe dane? Okazuje się, że nowoczesne metody są zwykle znacznie lepiej dostosowane do problemów uogólniających. Często mają wbudowaną walidację krzyżową jako sposób sprawdzenia założeń oryginalnego modelu. Teraz jest kwestia łatwości obliczeń, ponieważ wiele klasycznych metod zostało zbudowanych do ręcznego obliczania. A to sprawia, że są łatwiejsze do wyjaśnienia i łatwiejsze do wykazania, ale biorąc pod uwagę, że nikt nie robi tych rzeczy ręcznie, wszystko jest robione przez komputery, a nasze komputery stają się coraz szybsze i szybsze w czasie, to w zasadzie nie jest problem. Z drugiej strony pojawia się kwestia łatwości interpretacji. Czy możesz wyjaśnić, co to wszystko oznacza? To może być naprawdę ważne. A potem, być może, ostatecznie, łatwość aplikacji. Czy możesz wziąć wyniki uzyskane ze swojego modelu i zrobić z nimi coś pożytecznego? Dla wielu osób nic innego nie ma znaczenia, tak dobrze jak ma to zastosowanie do nowych danych i czy mogę ich użyć do generowania nowych spostrzeżeń z nowymi danymi? Istnieje szeroki wybór zarówno klasycznych, jak i nowoczesnych algorytmów, z różnymi mocnymi stronami każdego z nich. Problem polega na tym, że niektóre z tych metod, zwłaszcza klasyczne, są podatne na przesadne dopasowanie i mają problemy z uogólnieniem. Z drugiej strony, prawdopodobnie jeszcze ważniejsza jest umiejętność interpretowania i stosowania wyników tego, co robisz w użytecznej sytuacji, aby uzyskać dodatkowy wgląd w to, co dzieje się z Twoimi danymi.
Korzystaj z plików z ćwiczeniami, aby zmieniać teorię w praktykę
Pobierz pliki wykorzystywane przez instruktora podczas kursu. Weź udział i ucz się oglądając, słuchając i ćwicząc.