Jak wygenerować dane testowe DB

Użytkownicy IRI RowGen mogą generować strukturalnie i referencyjnie poprawne syntetyczne dane testowe dla całej bazy danych w ramach jednej operacji. Dane testowe odzwierciedlają cechy produkcyjne (takie jak zakresy wartości i częstotliwości) zwykle występujące w bazach danych lub operacjach ETL, ale nie wymagają dostępu do danych rzeczywistych ani ich maskowania.

Kreatory zadań użytkownika końcowego dla RowGen w GUI IRI Workbench (zbudowanym na Eclipse™) pomagają w generowaniu danych testowych. Jednym z najbardziej użytecznych jest Nowe zadanie danych testowych bazy danych RowGen kreator, który buduje cały projekt RowGen do automatycznego wypełniania wielu tabel jednocześnie wstępnie posortowanymi wartościami kluczy i możliwością dostosowania. Chociaż opiera się na istniejących metadanych dla każdej tabeli testowej, możesz także dostosować — i uogólnić za pomocą reguł — generowanie wartości kolumn.

W tym artykule zademonstruję, jak można użyć IRI Workbench do tworzenia docelowych tabel w Oracle i diagramu ich schematu, a następnie użyć jednego z jego kreatorów RowGen do generowania i ładowania danych testowych do tych tabel.

Na marginesie, chcę również, aby RowGen wstawiał losowo wybrane wartości rzeczywiste do określonych kolumn z zestawu danych pliku. Plik zestawu to plik tekstowy z co najmniej jednym wierszem, który może zawierać wiele kolumn rozdzielanych tabulatorami, które podajesz lub które automatycznie wyodrębniasz w innym kreatorze Workbench, Ustaw plik z kolumny. Jednak w moim przypadku ręcznie utworzyłem pliki zestawów:emp.set, item.set, project.set, ilość.set, salary.set, Department.set i category.set.

Oto kroki, które wykonałem, zauważając, że mam informacje o mojej tabeli docelowej i że będziesz ich potrzebować:

Krok 1. Utwórz puste tabele docelowe

Ustanów połączenie z bazą danych (w tym przypadku Oracle) przez JDBC w IRI Workbench’s Data Source Explorer (DSE)
Określ Dept, Emp, Project, Category, Item, Item_Use, Sale, zapisując ich instrukcje CREATE TABLE i ALTER TABLE w pliku .sql edytowanym w notatniku SQL DSE
Zapisz go w folderze projektu i kliknij prawym przyciskiem myszy, aby wykonać plik SQL, aby zbudować tabele

Krok 2. Utwórz i pokaż ich diagram ER

Nad paskiem narzędzi wybierz Nowy, projekt IRI i utwórz nowy folder
Kliknij ten folder, a następnie zaznacz 7 nowych tabel powyżej w DSE
Kliknij prawym przyciskiem myszy IRI, a następnie wybierz Nowy model diagramu ER
Spowoduje to utworzenie nowego modelu schematu i pliku schema.sqlschema w folderze projektu

Zwróć uwagę, że DSE i narzędzie do tworzenia diagramów ER firmy IRI są niezależne od bazy danych.

Krok 3. Twórz dane testowe za pomocą Kreatora danych testowych bazy danych RowGen

Kliknij z wciśniętym klawiszem CTRL, aby ponownie wybrać te 7 tabel w DSE
Kliknij prawym przyciskiem myszy i wybierz IRI, nowe zadanie danych testowych bazy danych
Kliknij Dalej po otwarciu kreatora, ponieważ masz już wcześniej wybrane tabele do wypełnienia:

Kliknij Dalej i na ekranie Opcje wybierz SQL*Loader jako metodę wypełniania

Określ standardową liczbę wierszy na 1000 na tabelę, zwracając uwagę, że mogę również zmieniać tę liczbę:

Kliknij Dalej, aby przejść do okna dialogowego Konfiguracja reguł, w którym można dodawać lub modyfikować różne reguły generowania na poziomie pola generowane graficznie w oknach dialogowych z Selektora reguł:

Ponieważ w tym miejscu będę warunkowo wstawiać losowo wybrane dane rzeczywiste (z moich plików zestawu), w podobnych kolumnach w kilku tabelach, zastosuję generowanie jako regułę, gdy nazwa kolumny będzie zgodna z określonym przeze mnie wzorcem.

Rozpoczynam stosowanie zestawu danych od „elementu” z tego pliku, więc teraz dodaję pole wzorca, dodaj Item_Name* i kliknij przycisk testuj dopasowania, aby sprawdzić, czy (i gdzie) ta nazwa kolumny istnieje
Następnie wybierz pole z menu Opcje reguły i wybierz Ustaw plik. Przechodzę do mojego pliku item.set, aby określić jego użycie w dowolnej kolumnie o nazwie lub jak Item_Name.
Powtarzam te kroki, aby zastosować dane z moich plików zestawu do kolumn o nazwach Nazwa_kategorii, Numer_działu, Nazwa_pracy, Nazwa_elementu w celu zwiększenia realizmu danych testowych:

Kliknij Dalej, aby przejść do tego ekranu podsumowania pracy:

Kliknij Zakończ, aby zakończyć pracę kreatora.

Kreator RowGen automatycznie utworzył skrypty języka kontrolnego zwykłego tekstu (.rcl), które określają generowanie danych testowych dla każdej tabeli, a także zależne pliki zestawów (dla integralności referencyjnej), pliki kontrolne SQL*Loader i plik wsadowy do wykonaj wszystko na raz, w lub poza środowiskiem pracy IRI.

Uruchomienie pliku wsadowego utworzonego przez RowGen tworzy wszystkie niezbędne dane testowe w płaskich plikach i wypełnia wszystkie tabele docelowe tymi danymi, jak wybrałeś w kreatorze (poprzez ODBC lub narzędzie do ładowania bazy danych), w kolejności niezbędnej do zachowania podstawowych- relacje klucza obcego. Tabele ładowane zbiorczo zostały wstępnie posortowane według klucza indeksu dla każdej tabeli, a wartości w zestawach plików zostały losowo wstawione do odpowiednich kolumn.

Ten zrzut ekranu IRI Workbench pokazuje jeden ze skryptów zadań RowGen i tabelę docelową:

Wszystkie skrypty zadań RowGen zostały zapisane w folderze, który wybrałem na początku i są dostępne do modyfikacji, ponownego wykorzystania, udostępniania zespołowego, kontroli wersji itp. Model przepływu pracy utworzony do generowania danych testowych można również przedstawić na diagramie w wizualny edytor przepływu pracy, z ETL i innymi projektami zarządzania danymi IRI.

Skontaktuj się z [email protected], jeśli potrzebujesz pomocy w planowaniu tego kreatora lub korzystaniu z niego.