Profilowanie danych lub odkrywanie danych odnosi się do procesu pozyskiwania informacji i statystyk opisowych na temat różnych źródeł danych. Celem profilowania danych jest lepsze zrozumienie treści danych, a także ich struktury, relacji oraz obecnych poziomów dokładności i integralności.
Profilowanie danych może ujawnić błędy lub fałszywe wnioski dotyczące metadanych (danych o danych). Wczesne wykrycie tych problemów pomaga poprawić jakość danych źródłowych przed ich integracją lub przechowywaniem w hurtowni danych. Zrozumienie atrybutów danych w tabeli bazy danych lub wyodrębnionym pliku oraz sprawdzenie wartości danych pomaga sprawdzić, czy zawartość danych rzeczywiście odpowiada definicji metadanych. Wyświetlanie danych i metadanych pomaga również określić, które elementy są wrażliwe lub zawierają informacje umożliwiające identyfikację osoby (PII), dzięki czemu niektóre kolumny można oflagować w celu zastosowania środków ochronnych. Profilowanie danych pozwala w ten sposób odkryć cechy danych źródłowych niezbędne do identyfikacji, wykorzystania i pochodzenia danych w integracji, bezpieczeństwie, raportowaniu i innych następujących procesach.
Chociaż zebrane dane często mogą wydawać się łagodne lub bezużyteczne, zwłaszcza gdy są gromadzone z wielu źródeł, należy pamiętać, że wszystkie dane mogą być przydatne przy odpowiedniej aplikacji lub algorytmie. Profilowanie danych jest zatem również pierwszym krokiem w określeniu tej użyteczności (poprzez poprawę zrozumienia samych danych).
Ponieważ wiele firm ostatecznie polega na źródłach nieprzetworzonych danych, aby uzyskać wgląd w takie rzeczy, jak zapasy produktów, dane demograficzne klientów, nawyki zakupowe i prognozy sprzedaży, zdolność firmy do czerpania korzyści z konkurencyjności na stale rosnących ilościach danych może być wprost proporcjonalna do jej zdolności do wykorzystania tych danych aktywa. Zdobywanie/utrata klientów oraz sukces/porażka jako firma może być bardzo dobrze zdeterminowane przez konkretną wiedzę, jaką przekazują zebrane dane organizacji. W ten sposób identyfikacja właściwych danych, ustalenie ich przydatności na odpowiednim poziomie i określenie, jak zarządzać anomaliami — są niezbędne w projektowaniu operacji związanych z magazynowaniem danych i aplikacjami do analizy biznesowej.
Według Douga Vucevica i Wayne'a Yaddow, autorów Testing the Data Warehouse Practicum, „… celem profilowania danych jest zarówno walidacja metadanych, gdy są one dostępne, jak i wykrywanie metadanych, gdy nie są. Wynik analizy jest wykorzystywany zarówno strategicznie – do określenia przydatności kandydujących systemów źródłowych i stworzenia podstawy do podjęcia wczesnej decyzji typu „go/no-go”, ale także taktycznie, aby zidentyfikować problemy w celu późniejszego projektowania rozwiązań oraz wyrównać oczekiwania sponsorów. ”
Organy ds. danych zalecają przeprowadzanie profilowania danych w sposób losowy i powtarzalny na ograniczonych ilościach danych, zamiast próbować zajmować się jednocześnie dużymi, złożonymi wolumenami. W ten sposób odkrycia mogą decydować o tym, co należy dalej profilować. Identyfikowanie reguł, ograniczeń i wymagań wstępnych dotyczących danych zapewnia integralność metadanych, na których będzie wykonywane przyszłe profilowanie. Wiedząc, co przypuszcza znajdować się w określonych plikach danych i co jest faktycznie może nie być tego samego. Tak więc zawsze, gdy jakość lub cechy nowego źródła są nieznane, eksperci sugerują najpierw profilowanie danych, przed jakąkolwiek integracją z istniejącym systemem.
Etapy procesu profilowania danych obejmują:importowanie wszystkich obiektów, tworzenie parametrów konfiguracyjnych, wykonywanie rzeczywistego profilowania i analizowanie wyników; żadne z nich nie jest tak proste, jak się wydaje! Następnie, w oparciu o ustalenia, można wprowadzić poprawki schematu i danych, a także inne precyzyjne dostrojenie w celu późniejszej poprawy wydajności profilowania danych.
Narzędzia do profilowania IRI
W połowie 2015 r. firma IRI wydała serię bezpłatnych narzędzi do wykrywania danych ustrukturyzowanych i nieustrukturyzowanych (ciemnych) w swoim interfejsie graficznym Eclipse, IRI Workbench. Są one podsumowane na stronie http://www.iri.com/products/workbench/discover-data i zawierają linki do innych artykułów na tym blogu, które są bardziej szczegółowe.