Database
 sql >> Baza danych >  >> RDS >> Database

Profilowanie danych:odkrywanie szczegółów danych

Profilowanie danych lub odkrywanie danych odnosi się do procesu pozyskiwania informacji i statystyk opisowych na temat różnych źródeł danych. Celem profilowania danych jest lepsze zrozumienie treści danych, a także ich struktury, relacji oraz obecnych poziomów dokładności i integralności.

Profilowanie danych może ujawnić błędy lub fałszywe wnioski dotyczące metadanych (danych o danych). Wczesne wykrycie tych problemów pomaga poprawić jakość danych źródłowych przed ich integracją lub przechowywaniem w hurtowni danych. Zrozumienie atrybutów danych w tabeli bazy danych lub wyodrębnionym pliku oraz sprawdzenie wartości danych pomaga sprawdzić, czy zawartość danych rzeczywiście odpowiada definicji metadanych. Wyświetlanie danych i metadanych pomaga również określić, które elementy są wrażliwe lub zawierają informacje umożliwiające identyfikację osoby (PII), dzięki czemu niektóre kolumny można oflagować w celu zastosowania środków ochronnych. Profilowanie danych pozwala w ten sposób odkryć cechy danych źródłowych niezbędne do identyfikacji, wykorzystania i pochodzenia danych w integracji, bezpieczeństwie, raportowaniu i innych następujących procesach.

Chociaż zebrane dane często mogą wydawać się łagodne lub bezużyteczne, zwłaszcza gdy są gromadzone z wielu źródeł, należy pamiętać, że wszystkie dane mogą być przydatne przy odpowiedniej aplikacji lub algorytmie. Profilowanie danych jest zatem również pierwszym krokiem w określeniu tej użyteczności (poprzez poprawę zrozumienia samych danych).

Ponieważ wiele firm ostatecznie polega na źródłach nieprzetworzonych danych, aby uzyskać wgląd w takie rzeczy, jak zapasy produktów, dane demograficzne klientów, nawyki zakupowe i prognozy sprzedaży, zdolność firmy do czerpania korzyści z konkurencyjności na stale rosnących ilościach danych może być wprost proporcjonalna do jej zdolności do wykorzystania tych danych aktywa. Zdobywanie/utrata klientów oraz sukces/porażka jako firma może być bardzo dobrze zdeterminowane przez konkretną wiedzę, jaką przekazują zebrane dane organizacji. W ten sposób identyfikacja właściwych danych, ustalenie ich przydatności na odpowiednim poziomie i określenie, jak zarządzać anomaliami — są niezbędne w projektowaniu operacji związanych z magazynowaniem danych i aplikacjami do analizy biznesowej.

Według Douga Vucevica i Wayne'a Yaddow, autorów Testing the Data Warehouse Practicum, „… celem profilowania danych jest zarówno walidacja metadanych, gdy są one dostępne, jak i wykrywanie metadanych, gdy nie są. Wynik analizy jest wykorzystywany zarówno strategicznie – do określenia przydatności kandydujących systemów źródłowych i stworzenia podstawy do podjęcia wczesnej decyzji typu „go/no-go”, ale także taktycznie, aby zidentyfikować problemy w celu późniejszego projektowania rozwiązań oraz wyrównać oczekiwania sponsorów.

Organy ds. danych zalecają przeprowadzanie profilowania danych w sposób losowy i powtarzalny na ograniczonych ilościach danych, zamiast próbować zajmować się jednocześnie dużymi, złożonymi wolumenami. W ten sposób odkrycia mogą decydować o tym, co należy dalej profilować. Identyfikowanie reguł, ograniczeń i wymagań wstępnych dotyczących danych zapewnia integralność metadanych, na których będzie wykonywane przyszłe profilowanie. Wiedząc, co przypuszcza znajdować się w określonych plikach danych i co jest faktycznie może nie być tego samego. Tak więc zawsze, gdy jakość lub cechy nowego źródła są nieznane, eksperci sugerują najpierw profilowanie danych, przed jakąkolwiek integracją z istniejącym systemem.

Etapy procesu profilowania danych obejmują:importowanie wszystkich obiektów, tworzenie parametrów konfiguracyjnych, wykonywanie rzeczywistego profilowania i analizowanie wyników; żadne z nich nie jest tak proste, jak się wydaje! Następnie, w oparciu o ustalenia, można wprowadzić poprawki schematu i danych, a także inne precyzyjne dostrojenie w celu późniejszej poprawy wydajności profilowania danych.

Narzędzia do profilowania IRI

W połowie 2015 r. firma IRI wydała serię bezpłatnych narzędzi do wykrywania danych ustrukturyzowanych i nieustrukturyzowanych (ciemnych) w swoim interfejsie graficznym Eclipse, IRI Workbench. Są one podsumowane na stronie http://www.iri.com/products/workbench/discover-data i zawierają linki do innych artykułów na tym blogu, które są bardziej szczegółowe.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Klucze obce, blokowanie i konflikty aktualizacji

  2. Jednym ze sposobów na uzyskanie indeksu wyszukiwania wiodącego %wildcard

  3. Jak uzyskać ostatni dzień miesiąca w T-SQL?

  4. SQL ORDER BY:5 nakazów i zakazów, aby sortować dane jak profesjonalista

  5. Scalanie plików danych ze Statistica, część 1