Aktualizacja:II kwartał 2016 :oprócz opisanego poniżej kreatora profilowania bazy danych w grupie menu wykrywania danych w IRI Workbench, IRI wprowadziła niezawodną klasyfikację danych, która umożliwia stosowanie reguł pól do przekształcania i ochrony danych z wielu źródeł za pomocą bibliotek klas danych. Aktualizuj w drugim kwartale 2018 r. :firma IRI wprowadziła również kreatora wyszukiwania wzorców w całym schemacie, aby znaleźć dane osobowe zgodne z wartościami RegEx lub literałami w wielu tabelach naraz. Zaktualizuj Q2 2019 :IRI umożliwia teraz także wyszukiwanie klas danych wewnątrz/w obrębie schematu i maskowanie dla użytkowników IRI FieldShield lub Vorcity. IRI właśnie opublikowała ten artykuł, aby pokazać, jak poniższe wyniki profilowania DB są wyświetlane w Splunk.
Ponieważ coraz więcej danych jest pobieranych z większej liczby aspektów biznesowych, łatwa świadomość ich zawartości i charakteru ma kluczowe znaczenie dla zapewnienia jakości, ilości i bezpieczeństwa tych zbiorów. Profilowanie danych to podstawowy proces wykrywania, który pomaga analizować, klasyfikować, oczyszczać, integrować, maskować i raportować dane w repozytoriach.
Oprócz ciemnych i ustrukturyzowanych kreatorów wykrywania danych (i definicji metadanych), a także tworzenia diagramów między bazami danych E-R w środowisku Eclipse, nowe narzędzie do profilowania między bazami danych w IRI Workbench umożliwia użytkownikom badanie struktury i kompletności danych w bazie danych oraz weryfikację ich poprawności. właściwe dane są przechowywane we właściwych miejscach. W tym artykule przyjrzymy się temu narzędziu i pokażemy, w jaki sposób zapewnia ono wyniki wyszukiwania według wartości tabeli oraz metadane statystyczne.
Aby uzyskać dostęp do Database Profiler, przejdź do tabeli, do której chcesz uzyskać dostęp w Eksploratorze źródeł danych. Kliknij prawym przyciskiem myszy tabelę i najedź myszą na opcję IRI. W wyświetlonym menu wybierz Nowy profil bazy danych .
Na pierwszej stronie kreatora skonfiguruj lokalizację i miejsce docelowe zadania, a następnie wybierz dane wyjściowe raportu profilu w postaci pliku .csv lub .txt albo obu.
- format .csv jest przydatny do importowania do nowych tabel i baz danych, podczas gdy
- Format .txt to wstępnie sformatowany raport, przydatny do szybkiego przeglądania wyników.
Informacje o profilu statystycznym
Pojawi się następna część kreatora z dwiema tabelami:
- Tabela górna to lista wszystkich tabel w bazie danych, z domyślnie podświetloną tabelą, która uruchomiła kreatora.
- To pole wyboru pozwala jednym kliknięciem przeskanować każdą tabelę i wiersz w bazie danych.
- Dolna tabela pokazuje opcje profilowania, po których następują kolumny podświetlonej tabeli, w której wybierasz wykonanie opcji.
Kliknij dowolną tabelę na liście, którą chcesz wyświetlić i profilować. Macierz opcji zmieni się automatycznie, reprezentując kolumny wybranej tabeli. Istnieje kilka sposobów obsługi opcji przeglądania:
- W przypadku wszystkich opcji kliknij górne pole wyboru w tabeli oznaczone jako Wszystkie, a wszystkie metadane zostaną zgłoszone.
- W przypadku tylko podstawowych opcji (liczenie i wartości) zaznacz pole wyboru Podstawy.
- Tylko w przypadku opcji długości (długości wartości) zaznacz pole wyboru o nazwie Długości.
Jeśli masz wiele kolumn w tabeli i chcesz wybrać tę samą opcję dla nich wszystkich, kliknij samą nazwę opcji, a wszystkie kolumny będą miały wybraną opcję. Możesz odznaczyć kolumny w ramach opcji.
Gdy wszystko jest ustawione, kliknij Zakończ a następnie zostanie dla Ciebie wygenerowany profil.
Wyszukiwanie wyrażenia
Unikalnym wyborem w tabeli opcji jest -Wyszukiwanie wyrażenia-. Ta opcja umożliwia przeszukiwanie kolumn według różnych opcji wyszukiwania. Te opcje to:
- Wyrażenia regularne (wyszukiwanie wzorców). To lokalizuje i liczy, ile razy wartość pasuje do formatu wzorca wyszukiwania.
- Rozmyty ciąg. Ta opcja umożliwia wyszukiwanie ciągów podobnych do tych, które wpisujesz, oraz wybieranie lub określanie warunków wyszukiwania.
- Plik wartości. Ta opcja pozwala porównać ciąg z każdym ciągiem w zestawie i policzyć każdy ciąg pasujący.
Strona wyszukiwania wyrażenia ma 6 ważnych sekcji
- Pole kombi Typ wyszukiwania, aby wybrać typ wyszukiwania do wykonania.
- Grupa opcji, która zmienia się w zależności od wybranego typu wyszukiwania
- Wyrażenie regularne:ma dwa przyciski; przeglądaj, która przegląda istniejące wyrażenia regularne, i Utwórz…, która umożliwia tworzenie nowych wyrażeń regularnych.
- Strumień rozmyty:ma pole zliczania, które określa próg wyszukiwania rozmytego (jak blisko ciągi znaków muszą być uznane za dopasowanie) oraz pole kombi do wyboru algorytmu wyszukiwania rozmytego, który ma być użyty.
- Plik wartości:ma przycisk Przeglądaj…, który pozwala wyszukać plik zestawu do użycia do wyszukiwania wartości.
- Pole tekstowe, w którym wprowadzisz dane do wyszukiwania.
- Rozwijana lista tabel, do których można zastosować wyszukiwanie wyrażenia.
- Rozwijana lista kolumn, do których można zastosować wyszukiwanie według wyrażenia.
- Tabela zawierająca listę utworzonych przez Ciebie wyszukiwań, które zostaną wykonane przez profilera.
Aby utworzyć filtr wyrażenia regularnego:
- Z listy Typ wyszukiwania wybierz Wyrażenie regularne .
- Kliknij Przeglądaj do (swojej biblioteki zapisanych wyrażeń) lub kliknij Utwórz by określić wyrażenie regularne używane podczas wyszukiwania wartości kolumn.
- W menu Tabela wybierz tabelę zawierającą kolumnę do filtrowania.
- W menu Kolumna wybierz kolumnę, do której ma zostać zastosowane wyrażenie regularne.
- Kliknij Dodaj do tabeli , a w poniższej tabeli pojawi się element zawierający nazwę pliku, nazwę kolumny, źródło wyszukiwania, próg i etykietę wyrażenia regularnego, które tworzą filtr.
- Powtórz ten proces dla każdej kolumny, do której chcesz dodać filtr. Jeśli masz zbyt wiele kolumn, aby ten proces był praktyczny, nadal możesz automatycznie skanować wiele kolumn i tabel – pod kątem danych pasujących do Twoich wzorców w całym schemacie bazy danych – korzystając z tego kreatora.
Aby utworzyć wyszukiwanie ciągów rozmytych:
- Z kombinacji Typ wyszukiwania wybierz Ciąg rozmyty .
- Wpisz ciąg, który ma być użyty do wyszukiwania.
- Wybierz liczbę wyników do zwrócenia (ta opcja pojawi się, gdy zostanie wybrane wyszukiwanie rozmyte).
- Wybierz typ wyszukiwania rozmytego, którego chcesz użyć (ta opcja pojawi się po wybraniu ciągu rozmytego).
- W menu Tabela wybierz plik zawierający kolumnę do wyszukiwania rozmytego.
- W menu Kolumna wybierz kolumnę, do której ma być przeprowadzone wyszukiwanie rozmyte.
- Kliknij Dodaj do tabeli , a w poniższej tabeli pojawi się element zawierający nazwę pliku, nazwę kolumny, źródło wyszukiwania, próg i typ wyszukiwania rozmytego, które ma zostać wykonane.
- Powtórz ten proces dla każdej kolumny, w której chcesz przeprowadzić wyszukiwanie ciągów rozmytych.
Aby utworzyć wyszukiwanie pliku wartości:
- Z listy Typ wyszukiwania wybierz Plik wartości .
- Kliknij Przeglądaj aby wybrać zestaw, z którym kolumna będzie sprawdzana.
- W menu Tabela wybierz tabelę zawierającą kolumnę do filtrowania.
- W menu Kolumna wybierz kolumnę, do której ma zostać zastosowane wyrażenie regularne.
- Kliknij Dodaj do tabeli , a w poniższej tabeli pojawi się element zawierający nazwę pliku, nazwę kolumny, źródło wyszukiwania, próg i etykietę wyszukiwania listy wartości, które tworzą filtr.
Sprawdzenie integralności materiałów referencyjnych
Innym wyborem w tabeli opcji jest -Sprawdź integralność referencyjną-. Ta opcja umożliwia profilerowi porównanie jednej lub więcej kolumn z inną kolumną i określenie, czy kolumny mają integralność referencyjną. Aby użyć tej funkcji, zaznacz pola — Sprawdź integralność referencyjną — w kolumnach, aby porównać integralność referencyjną. Przycisk Dalej zostanie aktywowany i umożliwi określenie parametrów kontroli integralności referencyjnej (szczegóły poniżej).
Jeśli wybrałeś opcję Sprawdź integralność referencyjną dla którejkolwiek ze swoich kolumn, kliknij Dalej aby przejść do strony Sprawdzanie integralności referencji. Ta strona ma następujące funkcje:
- Dwa pola kombi, jedno do wyboru tabeli, w której znajduje się klucz podstawowy, drugie do określenia kolumny klucza podstawowego.
- Dwa pola kombi, jedno do wyboru tabeli, w której znajduje się klucz obcy, drugie do określenia kolumny klucza obcego. Dostępny jest również przycisk dodawania klucza obcego do listy kluczy obcych w celu porównania z kluczem podstawowym.
- Przycisk Utwórz sprawdzanie integralności, aby dodać kolumny podstawowe i obce do poniższej listy.
- Lista, która przechowuje wszystkie kontrole integralności referencyjnej, które zostaną wykonane przez profilera.
Aby utworzyć kontrolę integralności referencji:
- W polu kombi tabeli w kolumnie Klucz podstawowy wybierz tabelę, w której znajduje się klucz podstawowy.
- W polu kombi kolumny w obszarze Kolumna klucza podstawowego wybierz klucz podstawowy.
- W polu kombi tabeli w kolumnie Klucz obcy wybierz tabelę, w której znajduje się klucz obcy.
- W polu kombi kolumny w kolumnie Klucz obcy wybierz klucz obcy.
- Kliknij przycisk Dodaj do listy kluczy obcych…
- Powtórz kroki 3-5 dla każdego klucza obcego do sprawdzenia z kluczem podstawowym
- Kliknij przycisk Utwórz kontrolę integralności…
- Powtórz powyższe procesy dla każdego sprawdzenia integralności referencyjnej do wykonania.
Przykładowe dane wyjściowe profilu
.csv wyświetlany w LibreOffice / .txt wyświetlany w EditPad Lite