Budowanie skalowalnego procesu przy użyciu NiFi, Kafka i HBase na CDP

Navistar to wiodący światowy producent samochodów ciężarowych. Dysponując flotą 350 000 pojazdów, nieplanowane przeglądy i awarie pojazdów powodowały ciągłe zakłócenia w ich działalności. Firma Navistar potrzebowała platformy diagnostycznej, która pomogłaby im przewidzieć, kiedy pojazd wymaga konserwacji, aby zminimalizować przestoje. Platforma ta musiała być w stanie zbierać, analizować i udostępniać dane z ponad 70 systemów telematycznych i danych z czujników z każdego pojazdu w ich flocie, w tym dane mierzące wydajność silnika, temperaturę płynu chłodzącego, prędkość ciężarówki i zużycie hamulców. Navistar zwrócił się do Cloudera o pomoc w zbudowaniu platformy do zdalnej diagnostyki z obsługą IoT, o nazwie OnCommand® Connection, w celu monitorowania stanu ich pojazdów i wydłużenia czasu pracy pojazdu.

Ten blog pokazuje użycie podobnych technologii do rozwiązywania problemów o znacznie mniejszym zakresie, ale z podobieństwami do tych, z którymi borykał się Navistar. Dane zostały pobrane z wysoce zmodyfikowanej, wysokowydajnej Corvette (patrz rys. 1), aby pokazać etapy ładowania danych z zewnętrznego źródła, formatowania ich za pomocą Apache NiFi, przesyłania ich do źródła strumienia przez Apache Kafka i przechowywania ich za pomocą Apache HBase do dodatkowej analizy.

Ryc. 1. Corvette 2008 ze zmodyfikowanym silnikiem 6.8L

W tym konkretnym przykładzie w omawianej Corvette wymieniono wszystkie oryginalne fabryczne komponenty silnika na rzecz części o wyższej wydajności. Silnik został rozebrany do skorupy, cylindry wydrążone, wał korbowy i wałek rozrządu wymienione, a nowe tłoki i korbowody zostały zainstalowane, dążąc do celu ~600 koni mechanicznych (patrz rys. 2). Aby ta nowa konfiguracja silnika działała poprawnie, oprogramowanie silnika przeszło gruntowny przegląd. Podczas gdy naciskanie przepustnicy stało się znacznie bardziej dramatyczne, niezamierzoną konsekwencją było to, że oryginalna diagnostyka i systemy błędów samochodu nie były już dokładne i dlatego musiały zostać wyłączone.

Ryc. 2. Silnik przebudowany w połowie ze wszystkimi nowymi błyszczącymi elementami wewnętrznymi

Aby przechwycić i przeanalizować dane z czujników Corvette, potrzebna była ścieżka, po której dane przepłyną z samochodu do alternatywnej platformy analitycznej i diagnostycznej. Pierwszym krokiem było podłączenie laptopa do portu diagnostycznego Corvette (patrz rys. 3) w celu zaimportowania danych z czujników do lokalizacji w chmurze. S3 został użyty w tym projekcie.

Rys 3. Laptop podłączony do portu diagnostycznego przez USB

Następnym krokiem było wykorzystanie Cloudera Data Platform (CDP), wielofunkcyjnej, multi-analitycznej platformy Cloudera, aby uzyskać dostęp do usług potrzebnych do przeniesienia danych do miejsca docelowego w celu dodatkowej analizy. Korzystając z CDP Public Cloud, skonfigurowano 3 centra danych, z których każdy obsługuje zestaw gotowych usług typu open source (patrz rys. 4):

Pierwszą konfiguracją była NiFi, usługa stworzona w celu automatyzacji i zarządzania przepływem danych. NiFi zostało użyte do importowania, formatowania i przenoszenia danych Corvette ze źródła do końcowego punktu przechowywania.
Następnym krokiem było skonfigurowanie Kafki, usługi przesyłania strumieniowego w czasie rzeczywistym, która umożliwia udostępnianie dużych ilości danych w postaci strumienia. Kafka daje możliwość strumieniowego przetwarzania danych, a także umożliwia innym użytkownikom subskrypcję strumieni danych. W tym przykładzie nie ma żadnych subskrybentów; jest to jednak ważna koncepcja, która zasługuje na zademonstrowanie, jak ją skonfigurować.
Ostateczną konfiguracją była HBase, wysoce skalowalna, zorientowana na kolumny operacyjna baza danych, która zapewnia dostęp do odczytu/zapisu w czasie rzeczywistym. Po zaimportowaniu danych do HBase, Phoenix będzie używany do wysyłania zapytań i pobierania danych.

Rys 4. Schemat przepływu danych Corvette od źródła do zapytania.

Zbudowanie platformy diagnostycznej przy użyciu CDP do monitorowania stanu i wydajności Corvette było udanym ćwiczeniem. Używanie NiFi i Kafki do formatowania i przesyłania danych z czujników do HBase pozwala teraz na zaawansowane inżynierię i przetwarzanie danych, niezależnie od tego, jak duży będzie zestaw danych.

Dalsze kroki

Aby zobaczyć to wszystko w akcji, zobacz poniższe linki do kilku różnych źródeł prezentujących proces, który został utworzony.

Film – Jeśli chcesz zobaczyć i usłyszeć, jak to zostało zbudowane, obejrzyj krótkie, 5-minutowe wideo przedstawiające nawigację w czasie rzeczywistym przez CDP z systemem NiFi, Kafka i HBase.
Samouczki – jeśli chcesz to zrobić we własnym tempie, zapoznaj się ze szczegółowym przewodnikiem ze zrzutami ekranu i instrukcją linia po linii, jak to skonfigurować.
MeetUps – Jeśli chcesz porozmawiać bezpośrednio z ekspertami z Cloudera, a nawet z właścicielem tej Corvette, dołącz do wirtualnego spotkania, aby zobaczyć jego prezentację na żywo. Na końcu będzie czas na bezpośrednie pytania i odpowiedzi.
Strona użytkowników CDP – aby dowiedzieć się o innych zasobach CDP stworzonych dla użytkowników, w tym o dodatkowych materiałach wideo, samouczkach, blogach i wydarzeniach, kliknij link.