Nazwy produktów oprogramowania IRI i sposób ich działania były czasami źródłem tajemnic, a nawet zamieszania dla niewtajemniczonych. Ten artykuł przedstawia elementy i wyjaśnia ich wzajemne oddziaływanie, zapewniając szybki wstęp dla potencjalnych użytkowników, partnerów i nowych analiz branżowych st.
Gdzie wszystko się zaczęło
Zaczęło się od IRI CoSort w 1978 roku, narzędzia do sortowania, transformacji i raportowania dużych zbiorów danych dla systemów Unix i Windows, które wciąż jest w powszechnym użyciu. Przed CoSort ten pierwszy produkt IRI nazywał się CO-SORT, COSORT i CoSORT, w tej kolejności.
W 1992 roku IRI dodała składnię definicji danych Sort Control Language (SortCL) i program do manipulacji do innych narzędzi i interfejsów API w pakiecie CoSort. Dzisiaj SortCL jest najczęściej używanym i bogatym w funkcje interfejsem użytkownika w pakiecie CoSort.
Skrypty SortCL definiują i uruchamia program sortcl zadania, które wykonują i łączą wiele typowych zadań przenoszenia danych i mapowania, które użytkownicy CoSort muszą uruchamiać. SortCL jest nie tylko prostym 4GL do nauki, czytania i modyfikowania, ale jest również obsługiwany przez API (nazywany sortcl_routine) i graficznie w darmowym IDE IRI Workbench, zbudowanym na Eclipse.
W miarę rozszerzania się funkcjonalności SortCL przerósł on tradycyjny rynek CoSort w zakresie migracji sortowania i akceleracji BI/DW. Dzisiaj plik wykonywalny SortCL jest nie tylko silnikiem obsługującym większość zadań CoSort, ale także bijącym sercem kilku produktów typu spin-off, zilustrowanych tutaj:
Produkty typu spin-off CoSort / SortCL
W szczególności ten sam silnik SortCL i kompatybilne skrypty zadań — zwykle zaprojektowane i często zarządzane z poziomu IRI Workbench, przetwarzaj ustrukturyzowane źródła danych w:
- IRI FieldShield i IRI DarkShield do maskowania danych
- IRI RowGen do syntezy danych testowych i podzbiorów bazy danych
- IRI NextForm do konwersji i replikacji danych i baz danych oraz
- Zlecenia dotyczące platformy zarządzania danymi IRI Voracity, w tym te w CoSort i produkty, do których linki znajdują się powyżej, plus dodatkowe możliwości front-endowe poprzez wspólny GUI Workbencha, takie jak:
- Wykrywanie danych (profilowanie, klasyfikacja i wyszukiwanie)
- Hurtownia danych ETL, CDC i SDC
- Migracja i prototypowanie Data Vault 2.0
- Jakość danych (walidacja, czyszczenie, homogenizacja)
- Analityka lub walka o dane dla Splunk i KNIME oraz innych narzędzi BI przez przekazywanie
Innym sposobem spojrzenia na hierarchię produktów jest:
gdzie Workbench IDE jest miejscem, w którym projektowane są wszystkie zadania produktów IRI — w tym te dodatkowe funkcje obsługiwane w Voracity.
Często zadawane pytanie
Ponieważ SortCL zaczął od CoSort i jest wspólny dla wszystkich tych produktów, czy oznacza to, że mogę używać CoSort lub innego produktu powyżej, aby robić to, co robią inne produkty?
Odpowiedź brzmi tak i nie. Tak, masz SortCL i teoretycznie możesz wykonać tę samą pracę, co inny produkt IRI zgodny z SortCL. Ale byłoby to trudniejsze i stanowiłoby ryzyko produkcyjne. IRI zapewnia tylko dokumentację i wsparcie dla zadań najlepiej powiązanych z licencjonowanymi produktami IRI.
Dlatego w praktyce możliwości crossovera są ograniczone. Niemniej jednak funkcjonalność kombinacyjna jest powszechna w wielu przypadkach (takich jak posortowany podzbiór DB), a w przypadku Vracity wielozadaniowe, wieloetapowe przypadki użycia (takie jak mapowanie przyrostowe, maskowanie, czyszczenie i ponowne formatowanie) są bardzo wydajne i w pełni obsługiwane.
SortCL jest domyślnym silnikiem we wszystkich usługach IRI Voracity CDC, ETL, CDC, oczyszczaniu, uzgadnianiu, podzbiorach ,
Maskowanie danych osobowych, synteza danych testowych, konwersja, ponowne formatowanie, spory, analizy i zadania raportowania.
Architektura środowiska wykonawczego
Teraz, gdy znasz już nazwy produktów, omówmy, w jaki sposób są one powiązane i wdrażane.
Oprogramowanie IRI zwykle działa w modelu klient/serwer, w którym zadania kompatybilne z SortCL są definiowane w środowisku edycyjnym typu front-end, takim jak IRI Workbench lub inny edytor tekstu, lub za pośrednictwem interfejsu API IRI. Te zadania są zwykle uruchamiane w programie zaplecza SortCL na maszynach z systemem Linux, Unix lub Windows (fizycznym lub wirtualnym), lokalnie lub w chmurze:
Niektóre zadania napisane w składni SortCL mogą być również uruchamiane bez modyfikacji bezpośrednio w Map Reduce 2, Spark, Spark Stream, Story lub Tez dla licencjobiorców edycji Vorcity Grid (VGrid) dla Hadoop.
Należy jednak pamiętać, że w przeciwieństwie do wielu innych programów ETL i maskowania danych, nie ma serwera CoSort, na którym SortCL musi działać lub być zarządzany centralnie. Lekki plik wykonywalny SortCL może działać w dowolnym miejscu, od Raspberry Pi po mainframe z/Linux.
Dlatego też, zgodnie z powyższym diagramem, często zdarza się, że witryny mają zainstalowane instancje testowe i QA SortCL na laptopach programistów z IRI Workbench, a także na scentralizowanych serwerach plików lub baz danych w celu optymalizacji wydajności. To FAQ obejmuje pytanie, gdzie licencjonować SortCL w kontekście produktów do maskowania danych IRI, na przykład, i jak odpowiednio uwzględnić jego koszty.
Jeśli masz jakiekolwiek pytania dotyczące produktu IRI, którego potrzebujesz lub jak najlepiej wdrożyć go na posiadanym sprzęcie (lub planujesz udostępnić), skontaktuj się z przedstawicielem IRI.