Klasyfikacja danych w IRI Workbench

Użytkownicy narzędzi do maskowania danych osobowych, takich jak FieldShield, DarkShield i CellShield EE w pakiecie IRI Data Protector Suite lub na platformie Voracity, mogą katalogować i przeszukiwać swoje dane — oraz stosować funkcje transformacji i ochrony danych jako reguły — za pomocą wbudowanych danych klasyfikacja infrastruktury we wspólnym interfejsie IDE, IRI Workbench, zbudowanym na platformie Eclipse™.

Funkcje wykrywania (wyszukiwania) danych z wielu źródeł w IRI Workbench mogą korzystać ze zdefiniowanych przez Ciebie klas danych lub mogą pomóc w przypisaniu klas danych lub grup klas danych do danych na podstawie wyników wyszukiwania, reguł biznesowych i/lub ontologie domen.

Możesz użyć swojej biblioteki klas danych w regułach pól wielokrotnego użytku (np. maskowania danych). Możesz też przypisać te reguły podczas automatycznej klasyfikacji danych.

Funkcje te zapewniają wygodę, spójność i zgodność z przepisami architektom danych i zespołom ds. nadzoru. Zobacz ten artykuł, aby zapoznać się z przykładem od końca do końca używania klas danych do spójnego wyszukiwania i maskowania danych w wielu tabelach w schematach RDB.

W tym artykule opisano, jak można zdefiniować te klasy. Istnieją powiązane artykuły na temat walidatorów klas danych, których można używać do rozróżniania i weryfikowania danych na podstawie wyszukiwania wzorców.

Kilka innych artykułów na blogu IRI obejmuje zastosowanie klas danych w różnych kontekstach (głównie maskowania danych). Pełny indeks tych artykułów znajduje się w tej sekcji strony samouczącej się oprogramowania IRI.

Utwórz klasy danych

Klasyfikacja rozpoczyna się od ustawienia klas danych w Workbenchu Preferencje screen, który umożliwia globalne korzystanie z klas w wielu projektach w obszarze roboczym. Workbench ma kilka wstępnie załadowanych klas, w tym klasy FIRST_NAME, LAST_NAME i PIN_US użyte w tym przykładzie.

Klasy danych działają na zasadzie dopasowania (1) nazwy klasy do nazwy pola, (2) wzorca do danych w polu lub (3) zestawienia zawartości pliku z danymi w polu. Pierwsza pozycja jest wykonywana automatycznie w procesie klasyfikacji, jeśli ta opcja jest wybrana. Możesz dodać tyle wzorców i ustawić dopasowywanie plików, ile potrzebujesz, aby każda klasa zwróciła zamierzone wyniki.

Wprowadzenie wyrażenia regularnego jako nazwy klasy danych jest dodatkowym sposobem dopasowania nazwy kolumny. Na przykład może istnieć kolumna o nazwie LNAME lub LASTNAME. Więc mogę używać L(AST)?[_-]?NAME (podkreślenie i myślnik w nawiasach), aby uchwycić kilka odmian NAZWISKO.

Możesz także ustawić nieaktywne klasy i grupy danych. Jeśli masz wiele klas, ale chcesz odfiltrować elementy, które nie są używane w Twoim konkretnym projekcie, możesz je wyłączyć. Pozwala to zachować ich kopię, ale nie zaśmiecać listy rozwijanej, która używa tych klas.

Grupy klas danych

Możesz także mieć grupy klas danych. Na przykład uwzględniona grupa „NAMES” zawiera klasy danych FIRST_NAME, LAST_NAME i FULL_NAME. Jeśli chcesz zastosować regułę do wielu klas, możesz użyć grupy zamiast wybierać poszczególne klasy danych.

W tym przykładzie usunąłem podkreślenie z klasy danych FIRST_NAME, aby zademonstrować opcję dopasowania nazw w klasyfikacji.

Kreator źródła klasyfikacji danych

Po dodaniu elementów dopasowujących do potrzebnych klas można uruchomić Kreatora klasyfikacji źródła danych. Kreator akceptuje następujące formaty danych:CSV, Rozdzielany, LDIF, ODBC lub XML. Ten kreator zapewnia środki do wybierania źródeł dla biblioteki klas danych do późniejszej klasyfikacji.

Na stronie konfiguracji zacznij od wybrania lokalizacji nowej „iriLibrary.dataclass ”, który jest wynikiem działania tego kreatora. Nazwa pliku jest tylko do odczytu, ponieważ w każdym projekcie może istnieć tylko jeden z tych typów plików. Możesz także zaznaczyć pole wyboru, jeśli wszystkie źródła są tabelami w profilu połączenia.

Wybranie tego pola otwiera stronę wprowadzania, taką jak ta poniżej, na której można wybrać tabele, które mają zostać uwzględnione:

Jeśli pole wyboru nie jest zaznaczone, możesz dodawać pliki lub źródła ODBC na tym samym ekranie wprowadzania. Na tego typu stronie wejściowej musisz również dodać metadane dla każdego źródła. W tym przykładzie dołączyłem plik CSV i dwie tabele Oracle.

Jeśli potrzebujesz jednocześnie przeszukiwać i klasyfikować dane w jednym lub kilku pełnych schematach baz danych, użyj kreatorów Wyszukiwanie wzorców schematu i Wyszukiwanie wzorców schematu do powiązania klas danych.

Kliknięcie przycisku Zakończ spowoduje utworzenie biblioteki klas danych z uwzględnionymi wybranymi źródłami. Otwierający się edytor formularzy klas danych umożliwi klasyfikację danych w tych źródłach.

Klasyfikacja danych w wybranych źródłach

Proces klasyfikacji rozpoczyna się od kliknięcia jednego ze źródeł danych, aby wyświetlić szczegółowe informacje o tym źródle. W górnej części ekranu znajduje się rozwijana sekcja, która pokazuje szczegóły pliku lub tabeli.

Sekcja klasyfikacji zaczyna się od pola wyboru, aby uwzględnić dopasowanie poprzez nazwę pola do nazwy klasy danych. Na przykład mam klasę danych o nazwie FIRSTNAME i pole o nazwie FIRSTNAME (dopasowanie nie uwzględnia wielkości liter).

W takim przypadku proces klasyfikacji wybierze tę klasę danych dla tego pola bez odczytywania zawartości danych.

Następna sekcja wyświetla tabelę zawierającą nazwy pól z polami wyboru, kolumnę dla klasy danych i kolumnę dla pasujących wyników. Dolna tabela to podgląd danych w źródle. Niezbędne klasy danych powinny zostać utworzone przed użyciem tego edytora formularzy, ale możesz je tutaj dodać lub edytować.

Klasę danych można wybrać ręcznie, klikając pole rozwijane w kolumnie klasy danych pola, które chcesz sklasyfikować. Możesz też kliknąć Automatyczna klasyfikacja i wybrać pola, które chcesz sklasyfikować. Kliknięcie OK rozpocznie automatyczny proces klasyfikacji, który może zająć dużo czasu w zależności od ilości danych, które masz w źródle.

Proces może działać w tle, jeśli wybierzesz tę opcję w wyświetlonym standardowym oknie dialogowym Eclipse. Dodatkowo możesz wyświetlić stan procesu w widoku postępu.

Po zakończeniu klasa danych i mapa klas danych zostaną utworzone w bibliotece dla wybranych pól. W tym przykładzie proces klasyfikacji znalazł dopasowanie 87% w polu SSN, 11% w polu LASTNAME i zgodność nazwy w polu FIRSTNAME. Procenty wskazują ilość dopasowanych danych w źródle za pośrednictwem elementów dopasowujących dla tej klasy danych.

Jeśli w dopasowanej kolumnie wyświetla się „nazwa”, oznacza to, że klasa danych została dopasowana na podstawie nazwy. Jeśli ręcznie wybrałeś klasę danych, „użytkownik” zostanie wyświetlony w odpowiedniej kolumnie.

Ostateczna zawartość biblioteki jest wyświetlana poniżej. Tak jak możesz zobaczyć szczegóły źródeł, możesz również kliknąć klasy danych i mapy, aby wyświetlić ich szczegóły.

Mapy klas danych używają odwołań do klas danych i pól, co jest powodem, dla którego biblioteka oprócz samej mapy przechowuje źródła i klasy danych. Usunięcie źródła lub klasy danych spowoduje również usunięcie wszelkich powiązanych map klas danych, które odwołują się do usuniętego elementu.

Po kliknięciu przycisku Usuń wyświetlane jest ostrzeżenie, aby o tym przypomnieć. Proces można powtórzyć na innych dołączonych źródłach, a dodatkowe źródła można dodać w dowolnym momencie.

Wyniki klasyfikacji tej biblioteki można teraz wykorzystać do zastosowania reguł pól do tych źródeł danych. Proces jest wyjaśniony w moim następnym artykule na temat stosowania reguł terenowych za pomocą klasyfikacji.