HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Transformacja cyfrowa to podróż danych od krawędzi do wglądu

Transformacja cyfrowa jest gorącym tematem dla wszystkich rynków i branż, ponieważ zapewnia wartość z gwałtownym tempem wzrostu. Weź pod uwagę, że przemysłowy Internet of Things (IIOT) został wyceniony na 161 miliardów dolarów z imponującym 25% tempem wzrostu, rynek samochodów podłączonych do 2027 r. będzie wyceniany na 225 miliardów dolarów przy stopie wzrostu 17%, czyli w pierwszych trzech miesiącach W 2020 roku detaliści zrealizowali dziesięć lat penetracji sprzedaży cyfrowej w ciągu zaledwie trzech miesięcy. Większość tego, co jest napisane, dotyczy jednak platform technologicznych (chmury lub rozwiązania brzegowe lub punktowe, takie jak hurtownie danych) lub przypadków użycia, które zapewniają te korzyści (analiza predykcyjna stosowana do konserwacji zapobiegawczej, wykrywanie oszustw instytucji finansowych lub predykcyjne monitorowanie stanu zdrowia jako przykłady), a nie dane bazowe. Brakujący rozdział nie dotyczy rozwiązań punktowych ani drogi dojrzałości przypadków użycia. Brakujący rozdział dotyczy danych – zawsze chodzi o dane – i, co najważniejsze, dane podróży przeplatają się od krawędzi do wglądu w sztuczną inteligencję.

Jest to pierwszy z sześcioczęściowej serii blogów, w której przedstawiono drogę danych od brzegu do sztucznej inteligencji oraz dane o wartości biznesowej wytwarzane w trakcie tej podróży. Podróż danych nie jest liniowa, ale jest cyklem życia danych w nieskończonej pętli — inicjowanie na brzegu, przeplatanie się przez platformę danych i skutkowanie imperatywnymi analizami biznesowymi stosowanymi do rzeczywistych problemów o znaczeniu krytycznym dla firmy, które skutkują nowymi inicjatywami opartymi na danych. Uprościliśmy tę podróż do pięciu dyskretnych kroków, przy czym wspólny szósty krok dotyczy bezpieczeństwa i zarządzania danymi. Sześć kroków to:

  1. Zbieranie danych – pozyskiwanie i monitorowanie danych na brzegu (czy to z czujnikami przemysłowymi, czy z ludźmi w sklepie stacjonarnym)
  2. Wzbogacanie danych – przetwarzanie, agregacja i zarządzanie potoku danych w celu przygotowania danych do dalszego udoskonalenia
  3. Raportowanie – dostarczanie informacji o przedsiębiorstwie biznesowym (analiza i prognozowanie sprzedaży, badania rynku, budżetowanie jako przykłady)
  4. Podawanie – kontrolowanie i prowadzenie niezbędnych operacji biznesowych (transakcje bankomatowe, kasa detaliczna lub monitorowanie produkcji)
  5. Analiza predykcyjna – analityka predykcyjna oparta na sztucznej inteligencji i uczeniu maszynowym (wykrywanie oszustw, konserwacja predykcyjna, optymalizacja zapasów na podstawie popytu jako przykłady)
  6. Bezpieczeństwo i zarządzanie – zintegrowany zestaw technologii bezpieczeństwa, zarządzania i nadzoru w całym cyklu życia danych

Rys 1:Cykl życia danych przedsiębiorstwa

Aby zilustrować podróż danych, wybraliśmy bardzo istotny i zrównoważony temat produkcyjny – produkcję samochodu elektrycznego, wybraną, ponieważ operacje produkcyjne mają zwykle charakter rewolucyjny (wysoka dojrzałość cyfrowa z wykorzystaniem najbardziej aktualnych narzędzi danych) , w porównaniu do „starej szkoły ewolucyjnej” (o niższej dojrzałości) i że większość tych samochodów jest budowana jako platformy Connected Mobility, dzięki czemu samochód jest czymś więcej niż tylko transportem, ale platformą wiedzy i wglądu opartej na danych. Ta historia pokaże, w jaki sposób dane są gromadzone, wzbogacane, przechowywane, obsługiwane, a następnie wykorzystywane do przewidywania zdarzeń w procesie produkcyjnym samochodu za pomocą Cloudera Data Platform.

Ta historia będzie przedstawiać pozorowaną firmę produkującą pojazdy elektryczne o nazwie (z bardzo oryginalną nazwą) The Electric Car Company (ECK). ECC prowadzi wiele fabryk produkcyjnych zlokalizowanych na całym świecie, jest pionowo zintegrowana, budując własne samochody, a także wiele kluczowych komponentów, w tym silniki elektryczne, akumulatory i części pomocnicze. Każda fabryka zajmuje się produkcją różnych komponentów, a końcowy montaż odbywa się w kilku wybranych, strategicznie zlokalizowanych fabrykach.

Wyzwanie zbierania danych

Zarządzanie gromadzeniem wszystkich danych ze wszystkich fabryk w procesie produkcyjnym to znaczące przedsięwzięcie, które wiąże się z kilkoma wyzwaniami:

  • Trudność oceny ilości i różnorodności danych IoT: Wiele fabryk wykorzystuje zarówno nowoczesne, jak i starsze zasoby produkcyjne i urządzenia od wielu dostawców, z różnymi protokołami i formatami danych. Chociaż kontrolery i urządzenia mogą być podłączone do systemu OT, zazwyczaj nie są one połączone w sposób umożliwiający łatwe udostępnianie danych również systemom IT. Aby umożliwić połączoną produkcję i pojawiające się przypadki użycia IoT, ECC potrzebuje rozwiązania, które może obsługiwać wszystkie rodzaje różnorodnych struktur i schematów danych z brzegu, normalizować dane, a następnie udostępniać je dowolnemu rodzajowi odbiorcy danych, w tym aplikacjom Big Data.
  • Zarządzanie złożonością danych w czasie rzeczywistym: Aby ECC mogło napędzać przypadki użycia analiz predykcyjnych, platforma do zarządzania danymi musi umożliwiać analizę w czasie rzeczywistym danych przesyłanych strumieniowo. Platforma musi również skutecznie pozyskiwać, przechowywać i przetwarzać dane przesyłane strumieniowo w czasie rzeczywistym lub prawie rzeczywistym, aby natychmiast dostarczać spostrzeżenia i działania.
  • Uwalnianie danych z niezależnych silosów: Wyspecjalizowane procesy (platformy innowacyjne, QMS, MES itp.) w łańcuchu wartości produkcji nagradzają różne źródła danych i platformy zarządzania danymi, które dostosowują się do unikalnych rozwiązań silosowych. Te niszowe rozwiązania ograniczają wartość przedsiębiorstwa, biorąc pod uwagę tylko ułamek wglądu, jaki mogą zaoferować dane między przedsiębiorstwami, jednocześnie dzieląc biznes i ograniczając możliwości współpracy. Właściwa platforma musi mieć możliwość pozyskiwania, przechowywania, zarządzania, analizowania i przetwarzania danych przesyłanych strumieniowo ze wszystkich punktów łańcucha wartości, łączenia ich ze źródłami Data Historys, ERP, MES i QMS oraz wykorzystywania ich do uzyskiwania praktycznych wniosków. Te spostrzeżenia dostarczą pulpitów nawigacyjnych, raportów i analiz predykcyjnych, które napędzają przypadki użycia w produkcji o wysokiej wartości.
  • Wyważanie krawędzi: Zrozumienie właściwej równowagi między przetwarzaniem danych na brzegu sieci a przetwarzaniem w chmurze jest wyzwaniem, dlatego należy wziąć pod uwagę cały cykl życia danych. W branży panuje niepokojący trend, ponieważ firmy decydują się koncentrować na jednym lub drugim, nie zdając sobie sprawy, że mogą i powinny robić jedno i drugie. Przetwarzanie w chmurze ma swoje zalety w przypadku długoterminowej analizy i wdrażania na dużą skalę, ale jest ograniczone przez przepustowość i często gromadzi ogromne ilości danych przy użyciu tylko niewielkiej części. Wartość krawędzi polega na działaniu na krawędzi, gdzie ma największy wpływ z zerowym opóźnieniem, zanim wyśle ​​najcenniejsze dane do chmury w celu dalszego wysokowydajnego przetwarzania.

Zbieranie danych za pomocą Cloudera Data Platform

KROK 1:Zbieranie nieprzetworzonych danych

Dane z działalności produkcyjnej ECC obejmują wiele źródeł – roboty przemysłowe, zbiorniki procesowe do powlekania fosforanem w kolorze białym (temperatura, stężenie lub uzupełnianie), telematyka łańcucha dostaw lub informacje o części głównej itp. W tym konkretnym przykładzie część surowa dane podstawowe dla każdej z pięciu fabryk ECC zostały zebrane w ramach przygotowań do wprowadzenia ich do Apache NiFi (patrz rys. 2).

KROK 2:Skonfiguruj źródła danych dla każdej fabryki

Zbieranie danych zostanie zilustrowane przy użyciu doświadczenia Cloudera Data Flow (obsługiwanego przez Apache NiFi), aby pobrać te surowe dane i podzielić je na poszczególne strumienie fabryczne (zarządzane przez Apache Kafka), aby dokładniej przypominać scenariusz ze świata rzeczywistego (patrz rys. 2). Aby przykład był prosty, dla każdej części generowanej przez fabryki wybrano następujące tagi atrybutów danych: 

  • Identyfikator fabryczny
  • Identyfikator maszyny
  • Wyprodukowany znacznik czasu
  • Numer części
  • Numer seryjny

Rys 2:Schemat przepływu zbierania danych.

KROK 3:Monitoruj przepustowość danych z każdej fabryki

Ponieważ wszystkie dane przepływają teraz do poszczególnych strumieni Kafka, architekt danych monitoruje przepustowość danych z każdej fabryki, a także dostosowuje zasoby obliczeniowe i magazynowe potrzebne, aby upewnić się, że każda fabryka ma wymaganą przepustowość do wysyłania danych na platformę.

KROK 4:Przechwytywanie danych ze strumieni Apache Kafka

Kafka przechwytuje wszystkie strumienie danych fabrycznych i gromadzi je w procesorach, które zarówno filtrują, jak i wzbogacają do wykorzystania w kontrolowaniu i prowadzeniu kluczowych operacji biznesowych opartych na operacyjnej bazie danych lub dostarczaniu wglądu w dane przedsiębiorstwa za pośrednictwem hurtowni danych przedsiębiorstwa lub w zaawansowanych analizach.

Firma ECC niedawno rozpoczęła produkcję ulepszonej wersji swojego silnika elektrycznego, która jest produkowana tylko w Fabryce 5, dane te zostaną wykorzystane jako ilustracja kolejnych kroków w cyklu życia danych

KROK 5:Prześlij dane do rozwiązań pamięci masowej

Ponieważ inżynierowie ds. produkcji i jakości ECC będą chcieli ściśle monitorować wdrażanie i użytkowanie tego silnika w terenie, określone dane dotyczące śledzenia produkcji są filtrowane do oddzielnej trasy i zapisywane we własnej tabeli w Apache Hive. Umożliwi to inżynierom uruchamianie zapytań ad hoc w Cloudera Data Warehouse w odniesieniu do danych później, a także łączenie ich z innymi istotnymi danymi w hurtowni danych przedsiębiorstwa, takimi jak zlecenia naprawy lub opinie klientów, w celu uzyskania zaawansowanych przypadków użycia, takich jak gwarancja, predykcja. procedury konserwacji lub wkład w rozwój produktu.

Alternatywnie, jeśli pożądane jest kontrolowanie i prowadzenie niezbędnych operacji biznesowych, cały zestaw danych z dodatkiem przetworzonego znacznika czasu zostanie przesłany do operacyjnej bazy danych Cloudera opartej na Apache HBase. Dane te posłużą jako podstawa dla ECC do uruchomienia platformy inwentaryzacyjnej, która będzie wymagała stosowania ciągłych operacji odczytu/zapisu, ponieważ inwentarz może być zarówno dodawany, jak i usuwany tysiące razy dziennie. Ponieważ HBase jest przeznaczony do obsługi tego rodzaju transakcji na danych na dużą skalę, służy jako najlepsze rozwiązanie dla tego wyjątkowego wyzwania.

Wniosek

Ta prosta ilustracja pokazuje, jak ważne jest prawidłowe pozyskiwanie danych, ponieważ jest to podstawa informacji dostarczanych zarówno z operacyjnych baz danych, hurtowni danych przedsiębiorstwa, jak i zaawansowanych analiz predykcyjnych opartych na uczeniu maszynowym. Wartość w „dobraniu” obejmuje wykorzystanie danych z dowolnego źródła korporacyjnego, co pozwala rozbić silosy danych, wykorzystać wszystkie dane, niezależnie od tego, czy są to dane strumieniowe, czy zorientowane wsadowo, oraz możliwość wysłania tych danych we właściwe miejsce, zapewniając pożądany wgląd w przesyłanie strumieniowe.

Korzystając z CDP, inżynierowie danych ECC i inni użytkownicy biznesowi mogą zacząć wykorzystywać zebrane dane do różnych zadań, od zarządzania zapasami po prognozowanie części i uczenie maszynowe. Ponieważ Cloudera Data Flow promuje pozyskiwanie danych w czasie rzeczywistym z dowolnego źródła korporacyjnego, może być rozbudowywany i utrzymywany bez rozległej znajomości różnych języków programowania i zastrzeżonych metod gromadzenia danych. W przypadku napotkania wyjątkowych problemów inżynierowie mogą również tworzyć własne procesy, aby zapewnić prawdziwie szczegółową kontrolę.

Poszukaj następnego bloga, który zagłębi się w temat wzbogacania danych i tego, jak wspiera on historię cyklu życia danych. Ponadto ta historia zostanie uzupełniona demonstracjami opartymi na danych, pokazującymi podróż danych przez każdy etap cyklu życia danych.

Więcej zasobów gromadzenia danych

Aby zobaczyć to wszystko w akcji, kliknij powiązane linki poniżej, aby dowiedzieć się więcej o zbieraniu danych:

  • Wideo – jeśli chcesz zobaczyć i usłyszeć, jak to zostało zbudowane, obejrzyj wideo pod linkiem.
  • Samouczki – jeśli chcesz to zrobić we własnym tempie, zobacz szczegółowy przewodnik ze zrzutami ekranu i instrukcje linia po linii, jak to skonfigurować i wykonać.
  • Meetup – Jeśli chcesz porozmawiać bezpośrednio z ekspertami z Cloudera, dołącz do wirtualnego spotkania, aby zobaczyć prezentację na żywo. Na końcu będzie czas na bezpośrednie pytania i odpowiedzi.
  • Użytkownicy – ​​aby zobaczyć bardziej techniczne treści przeznaczone dla użytkowników, kliknij link.

  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. szybko utwórz przykładową tabelę hbase

  2. Jak wdrożyć modele ML do produkcji

  3. więc HBase jest uszkodzony

  4. Spark na HBase z powłoką Spark

  5. Porównanie Apache HBase z Apache Cassandra na SSD w środowisku chmury