Wprowadzenie do profilowania danych
Profilowanie danych to proces systematycznego dokumentowania projektu i zawartości danych w pliku, tabeli lub schemacie. Profilowanie danych jest ważnym pierwszym krokiem podejmowanym, gdy hurtownia danych jest na etapie planowania. Ważne jest, aby architekci i projektanci hurtowni danych zrozumieli jakość i ogólny charakter danych bazowych systemów operacyjnych przed podjęciem dużego projektu hurtowni danych. Niektóre specyficzne aspekty danych źródłowych, które może ujawnić profilowanie, obejmują:
- Całkowity rozmiar (w bajtach) każdej tabeli lub pliku źródłowego, w tym specyfikacje typu danych każdego pola/kolumny.
- Liczby, średnie, zakresy i istnienie wartości null dla każdej kolumny.
- Relacje między kolumnami danych w tabelach (np. zależności funkcjonalne).
- Relacje między tabelami (takie jak relacje klucza obcego).
Wyniki etapu profilowania danych można dalej wykorzystać do opracowania reguł sprawdzających jakość danych i reguł korygujących problemy z danymi podczas pierwszych etapów potoku ETL.
Oracle Warehouse Builder zapewnia potężne narzędzie do profilowania danych, które można wykorzystać do szczegółowego poznania zakresu i cech danych w schemacie. Oficjalną dokumentację OWB dotyczącą profilowania danych można znaleźć pod tym linkiem. Oracle Warehouse Builder jest instalowany wraz ze standardową i Enterprise wersji bazy danych Oracle 11g. Oto kilka instrukcji dotyczących instalacji Oracle 11g Release 2 w systemie Windows.
Jeśli masz centralny serwer Oracle 11g, możesz użyć klienta Oracle Warehouse Builder, aby uzyskać dostęp do tego centralnego repozytorium.
W tej demonstracji przedstawiono główne kroki wymagane do profilowania schematu systemu OLTP. Docelowym schematem będzie schemat Oracle „Order Entry” (OE), który można zainstalować i włączyć w bazach danych Oracle 11g. Zwróć uwagę, że użytkownik Oracle Warehouse musi mieć dostęp (poświadczenia) do schematu OE, aby skonfigurować odpowiedni moduł w OWB.
Pierwszym ważnym krokiem w profilowaniu jest utworzenie modułu, który wskazuje na schemat źródłowej bazy danych. OWB obsługuje dużą liczbę źródeł baz danych, a także pliki płaskie (tekstowe).
Konfigurowanie nowego modułu dla schematu wprowadzania zamówień
W tym zestawie kroków schemat wprowadzania zamówień (OE) zostanie utworzony jako nowy moduł w Oracle Warehouse Builder.
- Zacznij od zalogowania się do Oracle Warehouse Builder. Otwórz okno Nawigatora projektu, a następnie otwórz MÓJ_PROJEKT
Otwórz bazy danych folder, a następnie Oracle folder.
Kliknij prawym przyciskiem myszy Oracle folderu i wybierz Nowy moduł Oracle jak pokazano poniżej:
- Gdy pojawi się ekran powitalny, kliknij przycisk Dalej> przycisk
- Podaj nową nazwę i opis bazy danych. Pamiętaj, że nie możesz używać spacji w nazwie bazy danych.
Kliknij Dalej> przycisk, aby kontynuować.
- Kolejnym głównym krokiem będzie określenie lokalizacji bazy danych. Jest bardziej niż prawdopodobne, że jest to pierwszy raz, kiedy wykonujemy te kroki, więc lokalizacja schematu Oracle OE nie została ustalona. W takim przypadku kliknij Edytuj... przycisk pokazany obok Lokalizacja monit
- Wypełnij nazwę, opis i informacje o połączeniu (nazwę hosta, nazwę użytkownika, hasło, numer portu, nazwę usługi Oracle itp.) Kliknij OK przycisk po zakończeniu.
- Potwierdź informacje o połączeniu i kliknij opcję Importuj po zakończeniu .
Następnie kliknij Dalej> przycisk, aby kontynuować:
- Pojawi się końcowy ekran podsumowujący, wskazujący, że tworzenie modułu powiodło się.
Kliknij Zakończ przycisk, aby zamknąć ten ekran.
Importowanie metadanych dla schematu wprowadzania zamówień
- Zaznaczając Importuj po zakończeniu opcja w kroku 6, Kreator importu metadanych uruchomi się automatycznie po utworzeniu modułu bazy danych. Jeśli pominąłeś tę opcję, kliknij prawym przyciskiem myszy nowy moduł Order_Entry i wybierz Importuj metadane z menu.
Po uruchomieniu kreatora importu metadanych kliknij przycisk Dalej> przycisk, aby kontynuować.
- Informacje o filtrach ekran pojawi się jako następny. W tym przypadku chcemy zaimportować metadane dla całej zawartości schematu, więc kliknij Wszystko opcję, a następnie kliknij Dalej> przycisk, aby kontynuować.
- Następny ekran, który się pojawi, oferuje możliwość wybrania niektórych lub wszystkich obiektów wykrytych w schemacie. Początkowo Wybór obiektu ekran będzie wyglądał następująco:
- Kliknij ikonę podwójnej strzałki w prawo, aby przenieść wszystkie obiekty z Dostępne stronę Wybranych stronie, jak pokazano poniżej. Następnie kliknij Dalej> przycisk, aby kontynuować.
- Podsumowanie i import ekran pojawi się jako następny. Przejrzyj ekran, aby upewnić się, że wszystkie obiekty zostały wybrane i kliknij Zakończ przycisk, aby zakończyć import.
- Importuj wyniki pojawi się ekran podsumowania. Kliknij OK przycisk, aby go zamknąć.
- W Nawigatorze projektów Oracle Warehouse Builder baza danych ORDER_ENTRY zostanie wypełniona wszystkimi jej obiektami, w tym tabelami, jak pokazano poniżej:
W tym momencie został utworzony nowy moduł bazy danych dla schematu bazy danych Oracle Order Entry, a wszystkie metadane schematu zostały zaimportowane do Oracle Warehouse Builder. W kolejnym zestawie czynności nowy profil danych zostanie utworzony.
Tworzenie profilu danych w Oracle Warehouse Builder
Następnym ważnym krokiem jest utworzenie profilu danych .
- W Nawigatorze projektów Oracle Warehouse Builder kliknij prawym przyciskiem myszy Profile danych grupę i wybierz Nowy profil danych
- Gdy pojawi się ekran powitalny, kliknij przycisk Dalej> przycisk
- Podaj nazwę i opis nowego profilu danych. W tym przykładzie nazwaliśmy nowy profil:Order_Entry_Schema_Profile (pamiętaj, że spacje nie są dozwolone w nazwie profilu). Kliknij Dalej> przycisk, aby kontynuować.
- Następny ekran zawiera listę obiektów schematu. Otwórz Tabele folderu i dodaj wszystkie tabele (z wyjątkiem PURCHASEORDER tabeli) wymienione w Bazie danych wpisów zamówień do Wybranego strony ekranu.
Nie dodawaj żadnych widoków.
Kliknij przycisk Dalej> przycisk, aby kontynuować.
- W tym momencie Podsumowanie pojawi się ekran i profil danych został skonfigurowany. Kliknij Zakończ przycisk.
- Po skonfigurowaniu nowego profilu Edytor profili danych pojawi się ekran.
Następnym krokiem będzie uruchomienie profilera na schemacie.
Praca z edytorem profili w Oracle Warehouse Builder
Ostatnim głównym krokiem jest praca w Edytorze profili, aby rozpocząć zadanie profilowania danych, a następnie wyświetlić wyniki. Jeśli wykonałeś poprzednie kroki, aby utworzyć nowy profil danych, OWB powinno uruchomić Edytor profilu danych . Wszystkie instrukcje od tego momentu zakładają, że pracujemy w Edytorze profili danych.
- Poniżej znajduje się widok Edytora profilu danych. Zauważ, że moduł bazy danych ORDER_ENTRY jest otwarty w Obiektach profilu okno i wszystkie tabele powinny być tutaj wymienione.
- Możesz wprowadzić zmiany w krokach profilowania w sekcjach Inspektora właściwości, takich jak Wczytaj konfigurację i Konfiguracja agregacji . Opisy tych ustawień można znaleźć pod tym linkiem.
W tym przykładzie upewnij się, że wybrane są następujące domyślne ustawienia profilowania:- Włącz wykrywanie wspólnych formatów
- Włącz wykrywanie typów
- Włącz wykrywanie wzorców
- Włącz wykrywanie domen
- Włącz wykrywanie unikalnych kluczy
- Włącz wykrywanie zależności funkcjonalnych
- Włącz wykrywanie nadmiarowych kolumn
- Włącz profilowanie reguł danych
- Aby rozpocząć zadanie profilowania danych, rozwiń Profil menu i wybierz Profil
- Po zainicjowaniu zadania profilu pojawi się okno dialogowe pokazujące postęp w sprawdzaniu poprawności profilu. Może to potrwać kilka minut w zależności od szybkości serwera i liczby obiektów bazy danych w profilu.
- Po zakończeniu etapu sprawdzania poprawności zostanie uruchomione rzeczywiste zadanie profilu. Zauważ, że to zadanie działa asynchronicznie w tle. Kliknij OK przycisk, aby zamknąć Rozpoczęto profil Okno dialogowe.
- Po zakończeniu zadania profilu Pobierz wyniki profilu pojawi się ekran. Kliknij Tak aby pobrać wyniki profilu do Edytora profili.
- Wyniki profilu pojawią się w Edytorze profili. Kliknij nazwę tabeli, aby zobaczyć metadane w Kłótwie wyników profilu . Kliknij nazwę kolumny, aby zobaczyć szczegóły kolumny w Panelu przeglądania danych
Na poniższym rysunku (kliknij, aby powiększyć obraz), KLIENCI tabela została wybrana do przeglądania na kanwie wyników profilu, a obszar NLS_TERRITORY kolumna została wybrana do wyświetlenia w panelu drążenia danych.
Więcej informacji na temat profilowania danych Oracle OWB
Oprócz dokumentacji, Oracle zapewnia również serię samouczków Oracle By Example (OBE) dla OWB, w tym:Oracle Warehouse Builder:Badanie danych źródłowych za pomocą profilowania danych.