Wprowadzenie do eksploracji danych

Uwaga:ten artykuł został pierwotnie opracowany w 2015 r., ale został zaktualizowany w 2019 r., aby odzwierciedlić nową integrację między IRI Voracity i Knime (dla Konstanz Information Miner), obecnie najpotężniejszą dostępną platformą do eksploracji danych o otwartym kodzie źródłowym.

Eksploracja danych to nauka o czerpaniu wiedzy z danych, zazwyczaj dużych zbiorów danych, w których należy odkryć istotne informacje, trendy i inne przydatne informacje. Eksploracja danych wykorzystuje uczenie maszynowe i metody statystyczne, aby wyodrębnić przydatne „samorodki” informacji z tego, co w przeciwnym razie byłoby bardzo zastraszającym zestawem danych.

Eksploracja danych obejmuje wiele dyscyplin komputerowych i matematycznych. Jest to nie tyle jednolity proces, ile ogólne określenie zespołu działań. Cztery ogólne zadania wykonywane podczas eksploracji obejmują:eksploracyjną analizę danych (EDA), modelowanie opisowe, modelowanie predykcyjne i wykrywanie wzorców.

EDA używa konwencjonalnych metod wizualizacji statystycznej lub niekonwencjonalnych metod graficznych, aby sprawdzić, czy w danych można znaleźć coś interesującego.

W modelowaniu opisowym dane są przekazywane do procedury i dają czasowniki (generatory danych) lub przymiotniki (opis danych), które kryją się za tworzeniem danych. Obejmuje to metody, które kojarzą dane z rozkładem prawdopodobieństwa, grupowaniem i modelowaniem zależności.

Modelowanie predykcyjne wykorzystuje metody regresji i klasyfikacji w celu ustalenia standardu przewidywania przyszłych nieznanych punktów danych. Regresja to czysto matematyczna analiza, która dopasowuje równanie do zestawu danych w celu przewidzenia następnej wartości. Modelowanie predykcyjne może również opierać się na regułach wzorców i zależnościach (lub nawet konkretnie zidentyfikowanych trendach przyczynowo-skutkowych), które zostały odkryte przy użyciu metody logicznej analizy danych (LAD).

Odkrywanie wzorców za pomocą LAD klasyfikuje nowe obserwacje zgodnie z wcześniejszymi klasyfikacjami obserwacji i wykorzystuje funkcje optymalizacji, kombinatoryczne i logiczne w celu poprawy dokładności analizy.

W większości te metody mogą jedynie wskazywać, które wpisy danych są powiązane, ale nie mogą wskazywać powodów, dla których lub w jaki sposób są powiązane. Możliwe jest wyjaśnienie, co charakteryzuje jedną klasę/klaster od innej, znajdując te reguły lub wzorce, a tematy są wymienione na różne sposoby w zależności od samych danych.

Aplikacje do eksploracji danych mogą obejmować zarówno marketing biznesowy, jak i medycynę, wykrywanie oszustw w bankowości i ubezpieczeniach, astronomię, zarządzanie zasobami ludzkimi, branżę marketingu katalogowego i tak dalej. Profesja medyczna uznała ją za przydatną do rozróżniania cech osób z różnymi wskaźnikami progresji choroby. Sklepy detaliczne wykorzystują teraz eksplorację danych, aby lepiej zrozumieć nawyki konsumentów dotyczące wydatków, odnotowując, które przedmioty są kupowane razem i jakie są ich relacje, a także jak najlepiej reklamować się swoim klientom. A większość świata korporacyjnego polega teraz na eksploracji danych w celu obliczania, wykonywania i uzasadniania ważnych decyzji biznesowych.

Jednak, jak wszyscy wiedzą teraz z niedawnych intensywnych relacji medialnych o skandalu z rejestrami telefonicznymi NSA-Verizon, eksploracja danych może być również niezwykle kontrowersyjna. Na wypadek, gdybyś mieszkał pod kamieniem, oto krótkie streszczenie:

5 czerwca 2013 r. brytyjski dziennik The Guardian opublikował ekskluzywny raport, że miliony danych klientów firmy Verizon, jednego z największych dostawców usług telekomunikacyjnych w USA, zostały zebrane przez amerykańską Agencję Bezpieczeństwa Narodowego w odpowiedzi na tajne polecenie z amerykańskiego Sądu Nadzoru Wywiadu Zagranicznego. Firma Verizon Business Network Services została zmuszona do przekazania wszystkich metadanych telefonicznych utworzonych przez dostawcę usług mobilnych w USA i za granicą. W rezultacie wybuchła dwustronna i powszechna krytyka administracji Obamy w grupach broniących praw obywatelskich i mediach informacyjnych, twierdząc, że prezydent nadużywa władzy wykonawczej. Żadne rozwiązanie tego incydentu nie jest widoczne w chwili pisania tego artykułu. Ale bez wątpienia pozostanie doskonałym przykładem tego, jak eksplorację danych można czasami postrzegać w negatywnym świetle, zwłaszcza w odniesieniu do obaw o prywatność i ogółu społeczeństwa.

Kiedy mamy do czynienia z dużymi ilościami danych statycznych lub dynamicznych, z pewnością pojawią się problemy z wydajnością obliczeniową i we/wy. W przypadku baz danych zawierających terabajty i eksabajty danych przeczesywanie danych może zająć dużo czasu, a algorytmy wyszukiwania muszą działać bardzo wydajnie. Niektóre inne trudności obejmują nadmierne dopasowanie i zaszumione dane.

Overfitting zwykle oznacza, że nie ma wystarczająco dobrych danych. Model danych (w tym przypadku globalny opis danych) staje się zbyt złożony, ponieważ ma zbyt wiele parametrów w stosunku do liczby obserwacji. To wyolbrzymia drobne fluktuacje danych, podważając w ten sposób wiarygodność modelu jako podstawy do prognozowania.

Z drugiej strony dane zaszumione odnoszą się do zbyt wielu niewłaściwych danych. Bezsensowne, błędne, nieustrukturyzowane (nieczytelne) lub w inny sposób uszkodzone dane zwiększają wymagania dotyczące przechowywania i/lub wymagają odrzucenia analizy statystycznej, zanim będzie to mogło utrudnić dokładność eksploracji danych. Dobre algorytmy eksploracji danych uwzględniają zaszumione dane.

Eksploracja danych to pojedynczy krok w większym procesie znanym jako odkrywanie wiedzy w bazach danych (KDD). KDD zaczyna się od przygotowania danych:selekcji, wstępnego przetwarzania i przekształcania danych, gdzie określasz, co chcesz zbadać, i ustawiasz to w sposób, który można wydobyć. Oznacza to reprezentację danych jako macierz m-n oraz liczbową reprezentację elementu każdego wektora danych. Następnie ty mój. I wreszcie, możesz użyć starej głowy do interpretacji i analizy tych informacji. Następnie, jeśli ukryte wzorce i trendy nadal nie są wystarczająco jasne, musisz kopać nieco głębiej.

Rolą IRI w eksploracji danych i procesie KDD jest przygotowywanie i restrukturyzacja dużych zbiorów danych do analizy za pomocą wielu wydajnych funkcji transformacji danych. W szczególności pakiet do manipulacji danymi IRI CoSort może szybko filtrować, manipulować i ponownie formatować dane, aby mogły być przetwarzane przez algorytmy eksploracji danych, takie jak te pakiety oprogramowania do eksploracji danych. CoSort jest również domyślnym silnikiem przetwarzania danych w platformie zarządzania danymi IRI Vorcity, zaprojektowanym do szerokiego zakresu profilowania danych, przygotowywania i prowadzenia sporów.

Dla osób pracujących z CoSort w IRI Workbench GUI, BIRT jest darmową wtyczką Eclipse z graficznymi funkcjami raportowania i analizy biznesowej, która obejmuje niektóre funkcje analityczne i eksploracyjne. Zarówno CoSort, jak i BIRT Analytics korzystają ze środowiska Eclipse IDE. Dzięki obsłudze sterowników danych Open Data Access (ODA) w CoSort, integracja przepływu danych między dwiema wtyczkami jest również bezproblemowa i pozwala na szybsze analizy typu „co, jeśli”.

Osobom pracującym z Voracity w 2019 r. i później sugerujemy zainstalowanie podstawowego dostawcy bezpłatnej platformy Knime Analytics w IRI Workbench. W tym samym okienku Eclipse węzeł źródłowy (dostawca) Vorality dla Knime może przekazać go do węzłów Knime przygotowanych przez Voracity nieprzetworzonych danych do zastosowań wymagających analizy statystycznej i predykcyjnej, eksploracji danych i uczenia maszynowego/głębokiego, sieci neuronowej i sztuczna inteligencja.

Współautorami tego artykułu są Roby Poteau i David Friedland