Scalanie plików danych ze Statistica, część 1

Platforma Statistica znalazła się w pierwszej piątce najlepszych platform analizy danych według nowego raportu Gartnera za 2017 r. „Magic Quadrant for Data Science Platforms” (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- platform), wcześniej nazywanej „Advanced Analytics Platforms” w 2016 r. Szeroki zakres funkcji i graficzny interfejs użytkownika (GUI) zapewniane przez Statistica sprawiają, że jest to jedno z najczęściej używanych narzędzi do analizy danych.

Pliki danych Statistica to Arkusze kalkulacyjne , które mają wiersze i kolumny danych. Wiersze danych nazywane są przypadkami a nagłówki kolumn dla danych to zmienne . Częstym problemem podczas przygotowywania danych jest to, że różni członkowie zespołu opracowują lub zbierają zestawy danych oddzielnie, a zestawy danych muszą zostać scalone przed użyciem arkusza kalkulacyjnego. Dane mogą znajdować się w wielu plikach danych. Omówimy, w jaki sposób dane z dwóch różnych plików danych mogą zostać połączone w jeden plik danych w Statistica.

Statistica obsługuje różne typy trybów scalania dla dwóch plików danych, a są to:

Połącz: Kiedy dwa pliki danych są łączone, jeden plik danych jest pobierany i dodawany (lub łączony) po prawej stronie drugiego pliku danych.
Kartezjański: Tworzy iloczyn krzyżowy dwóch plików danych.
Dopasuj nazwy przypadków: Łączy sprawy (wiersze) jednego pliku ze sprawami innych plików, dopasowując nazwy spraw.
Zmienne dopasowania: Łączy wiersze jednego pliku danych z wierszami innego pliku danych, dopasowując nazwy zmiennych.

Zaczniemy od omówienia połączenia Concatenate. Ten samouczek zawiera następujące sekcje:

Ustawianie środowiska
Łączenie plików danych
Wniosek

Ustawianie środowiska

Pobierz i zainstaluj platformę Statistica. Pliki danych Statistica nazywane są arkuszami kalkulacyjnymi (przechowywane w pliku .sta przyrostek). W tym samouczku stworzymy kilka plików danych Statistica. Plik danych jest tworzony za pomocą Plik>Nowy . W Utwórz nowy dokument , wybierz Arkusz kalkulacyjny , jak pokazano na rysunku 1.

Rysunek 1: Wybór nowego arkusza kalkulacyjnego do utworzenia

Aby zapisać plik danych, wybierz Plik>Zapisz jako , jak pokazano na rysunku 2.

Rysunek 2: Plik>Zapisz jako

Łączenie plików danych

Najpierw utwórz dwa pliki danych, które mają zostać połączone. Pliki danych, które mają zostać scalone, mają zazwyczaj tę samą liczbę wierszy i taką samą lub różną liczbę kolumn. Ponieważ dane mają być łączone, nazwy kolumn zwykle będą różne. Nic z tego nie jest wymogiem; dwa pliki danych mogą mieć różną liczbę wierszy i omówimy również, jak połączyć taki zestaw plików danych. Celem jest scalenie danych w jednym pliku danych z drugim, tak aby 2 pliki danych zostały dodane po prawej stronie 1 pliku danych. Jako przykład utwórz plik danych (o nazwie wlslog1.sta ) z nagłówkami kolumn (zmienne ) sygnatura czasowa , kategoria i typ oraz następujące dane (przykładowe dane dziennika).

4-8-2014-7:06:16,Notice,WebLogicServer
4-8-2014-7:06:17,Notice,WebLogicServer
4-8-2014-7:06:18,Notice,WebLogicServer
4-8-2014-7:06:20,Notice,WebLogicServer
4-8-2014-7:06:21,Notice,WebLogicServer
4-8-2014-7:06:22,Notice,WebLogicServer

wlslog1.sta plik danych jest pokazany w Statistica na rysunku 3.

Rysunek 3: Plik danych wlslog1.sta

Utwórz kolejny plik danych (wlslog2.sta ) z nagłówkami kolumn nazwa serwera , kod i wiadomość i dodaj następujące dane (również przykładowe dane dziennika).

AdminServer,BEA-000365,STANDBY
AdminServer,BEA-000365,RESUMING
AdminServer,BEA-000365,ADMIN
AdminServer,BEA-000331,STARTING
AdminServer,BEA-000365,STARTED
AdminServer,BEA-000360,RUNNING

wlslog2.sta plik jest pokazany na rysunku 4. Aby połączyć dwa pliki danych, wlslog1.sta i wlslog2.sta , kliknij Dane i wybierz Scal , jak pokazano na rysunku 4.

Rysunek 4: Plik danych wlslog2.sta

Opcje scalania zostanie wyświetlone okno dialogowe, jak pokazano na rysunku 5. Zmienne zakładka jest wybrana domyślnie. Wybierz Tryb jako Połącz . Kliknij Plik 1 przycisk, aby wybrać 1 plik do scalenia.

Rysunek 5: Opcje scalania

Wybierz wlslog1.sta plik w Wybierz arkusz kalkulacyjny okno dialogowe (patrz rysunek 6). Kliknij OK . wlslog1.sta plik zostanie dodany do Plik 1 pole. Podobnie wybierz 2 plik wlslog2.sta .

Rysunek 6: Wybór arkusza kalkulacyjnego do scalenia

Żadna inna konfiguracja nie jest wymagana. Domyślnie generowany jest wyjściowy arkusz kalkulacyjny, który można skonfigurować za pomocą Opcji jak pokazano na rysunku 7. Zachowaj domyślne ustawienia wyjściowego arkusza kalkulacyjnego.

Rysunek 7: Karta Opcje

Dwa pliki, które mają zostać połączone, zostaną dodane do Plik 1 i Plik 2 pola, jak pokazano na rysunku 8. Domyślne ustawienie dla Niedopasowanych przypadków wypełnia pliki danych brakującymi wartościami, co oznacza, że puste dane są przechowywane dla sekcji scalonego wiersza (przypadek ), które nie są zgodne z jednego pliku danych do drugiego. Kliknij OK .

Rysunek 8: Pliki danych do scalenia

Oba pliki danych zostają połączone, jak pokazano na rysunku 9. Wynikowy arkusz kalkulacyjny ma 6 kolumn i 6 wierszy.

Rysunek 9: Wynikowy arkusz kalkulacyjny po scaleniu

Gdyby jeden arkusz kalkulacyjny miał więcej wierszy niż drugi, oba arkusze kalkulacyjne zostałyby połączone w ten sam sposób. Jako przykład dodaj dodatkowy wiersz w 1 arkuszu kalkulacyjnym (wlslog1.sta ), aby utworzyć 7 rzędów, jak pokazano na rysunku 10.

Rysunek 10: Dodatkowy wiersz w wlslog1.sta

Po połączeniu z arkuszem kalkulacyjnym 2 (wlslog2.sta ), powstały arkusz kalkulacyjny ma dodatkowy wiersz z brakującymi danymi dla kolumn z drugiego arkusza kalkulacyjnego (patrz Rysunek 11).

Rysunek 11: Scalony arkusz kalkulacyjny

Wniosek

W tym samouczku wprowadziliśmy łączenie plików danych (zwanych również arkuszami kalkulacyjnymi) w platformie Statistica do nauki o danych. Omówiliśmy jeden z trybów scalania:Łączenie scalania. W kolejnym samouczku omówimy łączenie poprzez dopasowywanie nazw przypadków i dopasowywanie zmiennych.