Z kursu: Podstawy nauki o danych: Eksploracja danych

Dane wykrywania anomalii

- [Nauczyciel] Zacznijmy od przyjrzenia się jednowymiarowym wartościom odstającym, więc tutaj patrzysz na jedną zmienną na raz. Jednym z łatwych sposobów na to jest użycie miary opartej na wariancji lub odchyleniu standardowym, a to, czego szukasz, to przypadki, które są oddalone o kilka odchyleń standardowych. Na przykład możesz obliczyć tak zwane wyniki z. Cóż, jest to jeden ze sposobów, aby to zrobić, ale problem polega oczywiście na tym, że same wartości odstające wpływają na wariancję lub odchylenie standardowe, a więc zmniejszają prawdopodobieństwo, że będą postrzegane jako wartości odstające, więc jest to w zasadzie problematyczne podejście. Bardziej powszechnym jest stosowanie kwartyli lub miar opartych na percentylach, gdzie odległości każdego przypadku od reszty z nich są oparte na zakresie międzykwartylowym lub środkowym 50% wyników, i jest to prawdopodobnie najczęstsze podejście, i to jest to, którego zwykle używam. Jednym z nich, który nie jest tak naprawdę statystyczny per se, jest wykorzystanie doświadczenia. Może jesteś w dziedzinie, w której istnieją wspólne standardy dla nietypowych wyników. Tak więc, na przykład, w medycynie mogą powiedzieć: "Jeśli liczba białych krwinek jest powyżej tego poziomu, prawdopodobnie masz infekcję". Wiem, że w psychologii dają testy i mówią, że jeśli masz tak wysoki wynik, to jest to, co nazywają poziomem ambulatoryjnym, a inny wynik jest na poziomie szpitalnym. Więc tak naprawdę nie musisz obliczać wariancji dla nich, ale możesz użyć tych ustalonych standardów, ponieważ są one wykonywane z konsekwentnym pomiarem. Powiem też, że jeśli jesteś zaznajomiony z jakąś dziedziną, jeśli pracujesz w niej od dłuższego czasu, możesz mieć bardzo intuicyjne zrozumienie, oparte na twoim osobistym doświadczeniu, tego, co stanowi normalny wynik lub nieprawidłowy wynik, a więc zawsze bądź gotów na tym polegać. I, prawdę mówiąc, jeśli używasz metodologii bayesowskiej, to ją włączasz. Pozwólcie, że pokażę wam przykład podstawowego wykresu pudełkowego dla statystyki jednowymiarowej. To tylko sztuczne dane, które stworzyłem z rozkładu chi-kwadrat, a pomarańczowe kropki są pojedynczymi punktami danych, i jest ich kilka, a wykres pudełka jest na nich ułożony. Prostokąt po lewej stronie, duży prostokąt, jest zakresem środkowych 50% wyników, a gruba czarna linia w środku to mediana. A potem standardowym zastosowaniem jest wzięcie tej szerokości tego dużego pudełka, uczynienie go o 50% większym, a następnie przyklejenie go do każdego końca, a wszystko, co wykracza poza to, jest uważane za odstające. Tak więc, na przykład, nie mamy żadnych wartości odstających na dolnym końcu, ponieważ jest on tak bardzo zgnieciony, ale na górnym końcu widać, że mamy coś, co nazywa się wąsami. To jest przerywana linia, wychodzi na górne ogrodzenie. To jest pionowa linia, a to jest półtora interquartile zakresów od góry pola, a następnie zaznaczasz wartości odstające osobno okręgami. Mamy więc pomarańczowe kropki, które są roztrzęsionymi punktami danych. Po prostu zrobiłem to, aby nie byli na sobie. A potem okręgi reprezentują znacznik dla tego punktu danych jako wartości odstające, więc otrzymaliśmy kilka wartości odstających w tych sztucznych danych. Możesz także mieć dwuwymiarowe wartości odstające, w których patrzysz na dwa naraz. Teraz jednym z wyborów jest użycie miar odległości, w których obliczasz odległość każdego przypadku od środka. Jest wiele możliwości wyboru i opowiem o tych dla wielowymiarowych, ale chodzi o to, że ignorują możliwość dwuwymiarowej wizualizacji, co jest jedną ze zgrabnych rzeczy, gdy pracujesz z relacjami dwuwymiarowymi. Jedną z opcji jest pokazanie dwuwymiarowego rozkładu normalnego, który jest tylko elipsą nad wykresem punktowym, i szukanie przypadków, które znajdują się poza tą elipsą. Bardziej wyrafinowanym podejściem są wykresy gęstości, a dokładniej szacunki gęstości jądra. Są to jak mapy topograficzne, które podążają za gęstością danych i mogą mieć nieregularne kształty dla czegoś poza nim, ale pokażę wam, co jest prawdopodobnie najczęstsze dla dwuwymiarowego, a to jest dwuwymiarowy rozkład normalny. Więc to, co mam tutaj, to wykres punktowy, zobaczycie to w innym filmie, wyszukiwania nauki o danych na dole i wyszukiwania analizy skupień z boku na podstawie stanu po stanie. Te dane pochodzą z Google Correlate, a większość stanów znajduje się w tej elipsie, małej piłce nożnej, która jest pośrodku, ale mamy sześć wartości odstających. Mamy Delaware, Maryland, Massachusetts, Nowy Jork, Waszyngton i Kalifornię, które mają niezwykłe kombinacje, a zobaczysz, że są różne. Na przykład Delaware jest blisko środka w wyszukiwaniu nauki o danych, ale są bardzo wysokie w wyszukiwaniu analizy skupień. To sprawia, że są niezwykłym połączeniem. Z drugiej strony Kalifornia, podczas gdy jest wysoko w nauce o danych, jest poniżej średniej w analizie klastrów. Ponownie, to sprawia, że jest to niezwykła kombinacja, a następnie Massachusetts jest naprawdę wysoko na obu. Są to więc różne sposoby na uzyskanie dwuwymiarowych normalnych wartości odstających. A potem możemy mówić o wielowymiarowych wartościach odstających. Teraz umieszczę tutaj tylko dwie ogólne kategorie. Istnieją miary odległości, które zazwyczaj mierzą odległość euklidesową lub odległość linii prostej od środka zbioru danych lub centroidu. Najczęstszą wersją tego jest odległość Mahalanobis, która jest tak naprawdę tylko prostym wektorowym pomiarem tego, jak daleko coś jest od znormalizowanego centroidu danych. To bardzo powszechne. Istnieje jednak wiele solidnych miar odległości. Ten sam pomysł, ale nie są tak wrażliwe na zmiany w odchyleniu standardowym wariancji tych skal. Następnie są miary gęstości i tutaj patrzysz na lokalną gęstość danych w wielowymiarowej przestrzeni. Wielowymiarowe szacowanie gęstości jądra jest najczęstszym podejściem, które jest bardziej elastyczne i bardziej niezawodne. Mogą również dawać nieregularne kształty, a to brzmi jak dobra rzecz, ale faktem jest, że są naprawdę trudne do opisania i trudne do uogólnienia z jednej sytuacji na drugą, więc jest to kompromis. Nie jest to nie do pokonania, ale odległość Mahalanobis jest naprawdę łatwa do pokazania i opisania, a w rzeczywistości pozwólcie, że pokażę wam, co mamy tutaj. To jest ranking stanów w kilkunastu lub dwóch różnych czasach wyszukiwania w Google, a więc nie patrzymy na wyniki żadnego jednego wyszukiwanego hasła, ale wszystkie razem, a to, co mamy na osi x tutaj na dole, to stany uporządkowane według ich odległości Mahalanobis, a to, co widzisz, to pionowa linia po prawej stronie, i jest tylko jeden odstający na tym, a to jest Utah. Wygląda na to, że mówi, ale to Jest Utah, które jest wartością odstającą opartą na zbiorze zmiennych, które zawarłem w tym zestawie danych. Z drugiej strony, kiedy idziemy w górę osi y w pionie i używamy solidnej miary odległości, widzisz, że kryteria są znacznie niższe i że mamy o wiele więcej wartości odstających przy użyciu tego. W rzeczywistości jest to prawdopodobnie dokładniejsze odzwierciedlenie rzeczywistości, ponieważ odległość Mahalanobis, wszystkie te wartości odstające zawyżają szacunki zmienności, dlatego mamy tylko jeden odstający, podczas gdy mamy wiele wartości odstających, gdy używamy bardziej solidnej miary. Istnieją metody zarówno analizy wizualnej, jak i numerycznej pod względem identyfikacji wartości odstających. Po drugie, istnieją metody oparte na średnich, takie jak odległość Mahalanobisa, i istnieją bardziej solidne metody, powiedzmy, na przykład, z jednowymiarowymi, IQR i wielowymiarowymi, estymatorami gęstości jądra. Miło jest mieć miary, które są solidne i nie są tak wrażliwe, ale często są trudniejsze do interpretacji i trudniejsze do uogólnienia, a więc staje się to kompromisem tego, co jest ważne dla twoich konkretnych celów z konkretnym zestawem danych.

Spis treści