HBase
 sql >> Baza danych >  >> NoSQL >> HBase

Magazynowanie danych nowej generacji w Santander UK

Aktualne dane mają kluczowe znaczenie dla firm w erze Big Data:W tym poście na blogu opisano, w jaki sposób Santander UK wykorzystuje najnowsze technologie Cloudera i doskonałe możliwości tworzenia oprogramowania do tworzenia nowej generacji analityki hurtowni danych i przesyłania strumieniowego, aby wspierać inteligencję, która może poprawić relacje z klientami i podążaj za mantrą „chcemy pomóc ludziom się rozwijać i prosperować . „

Podróż Santander UK do big data rozpoczęła się około cztery lata temu. Byli pierwszymi użytkownikami nowej technologii przesyłania strumieniowego danych, takiej jak Apache Kafka, i mieli ambicje zrewolucjonizowania obsługi klienta dzięki wykorzystaniu danych w czasie rzeczywistym i analiz w aplikacji dla użytkowników mobilnych.

Od tego czasu Santander UK zwiększył zarówno zasięg, jak i zdolność do innowacji dzięki technologii Big Data i szybko ewoluował. Zapotrzebowanie na analizę strumieniową na dużą skalę wzrosło i stało się rzeczywistością. Obecnie w Santander UK platforma Cloudera Big Data, Machine Learning i Analytics jest uzupełniana przez zintegrowane wysokiej jakości i skalowalne dostarczanie zdarzeń Platform-as-a-Service (PaaS) za pośrednictwem Apache Kafka.

Innym komponentem technologicznym, który ma kluczowe znaczenie dla hurtowni danych nowej generacji Santander UK, jest wykorzystanie Apache Kudu w celu umożliwienia szybkiej analizy szybkich danych. W połączeniu z aspektami metodologii projektowania Data Vault 2.0 ułatwia szybkie pozyskiwanie z setek strumieni danych Apache Kafka; zarówno odciążenie istniejących starszych systemów, jak i umożliwienie zadawania pytań „tu i teraz” dotyczących zachowań klientów i aktualnego stanu Banku.

Szybkość rynku

Szybkie strumienie danych można przenosić online przy minimalnym wysiłku dzięki innowacyjnej nowej platformie w Santander UK, która integruje starsze systemy z nowym Data Vault za pośrednictwem Apache Kafka. Ze względu na czystą strukturę integrowanych danych nowy kanał strumienia zdarzeń do zapełniania Apache Kudu Data Vault jest w dużej mierze oparty na konfiguracji — dopasowuje zdarzenia danych do struktury Hub, Satellite i Link metodologii Data Vault 2.0. Pozwala to schematowi reagować na zmiany w firmie lub nowe zrozumienie, w jaki sposób dane powinny być zgodne.

Santander UK może wpływać na transformacje danych, skalując platformę elastycznego dostarczania zdarzeń, która jest oparta na Scala Akka i Apache Kafka, umożliwiając szybkie i skalowalne wzbogacanie danych w czasie rzeczywistym. Umożliwia to szybsze, bardziej aktualne dane, szybsze podejmowanie decyzji i większą szybkość wprowadzania na rynek przypadków użycia dzięki platformie i architekturze wielokrotnego użytku.

Nauka o danych i szybkie prototypowanie produktów danych

Ostatecznie istnieje wielu potencjalnych konsumentów tego źródła danych strumieniowych; jednak interesujący wgląd został już zebrany dzięki integracji Cloudera Data Science Workbench z Data Vault. Zapewniają one wszechstronne doświadczenie w zakresie Data Science dla rozwijającego się zespołu Data Science, a także wykorzystują – zazwyczaj w innowacyjny sposób Santander UK – potencjał szybkiego prototypowania pomysłów i tworzenia nowych produktów danych przed podjęciem ciężkich wyzwań inżynieryjnych i architektonicznych. Zbuduj szybki prototyp, a następnie, jeśli przyniesie wartość, przekształć go w produkt pierwszej klasy.

Szybka integracja:model udziału

W duchu innowacyjności i zwinności, które zespół Santander UK Data Innovation urzeczywistnił, stworzyli pojęcie modelu wkładu. Ponieważ klaster jest wielodostępny z różnymi jednostkami biznesowymi, które pozyskują, czyszczą i konstruują nowe zestawy danych; Jeśli zostanie to uznane za przydatne dla reszty firmy, tabele łączy w stylu Data Vault można wykorzystać do zintegrowania tych ogólnie przydatnych danych z rdzeniem schematu Data Vault. W ten sposób zespół może zwiększyć wartość produktów danych poprzez szybkie generowanie nowych kombinacji zestawów danych, z identyfikowalnym rodowodem za pomocą Cloudera Navigator do zarządzania i bezpieczeństwa za pomocą Apache Sentry do kontroli dostępu. Jeśli dane jednostki biznesowej zostaną uznane za przydatne dla innych, są powiązane z rdzeniem i udostępniane zgodnie z zasadami zarządzania.


Model udziału umożliwia nam wykorzystanie czystych zestawów danych, które są tworzone niezależnie przez różne jednostki biznesowe i zespoły produktowe. Jeśli te dane są cenne dla reszty firmy, mamy możliwość przeniesienia ich do Data Vault jako najwyższej klasy obywatel dzięki wykorzystaniu tabel łączy. Chcieliśmy powtórzyć podejście społeczności Apache do oprogramowania open source dla systemów danych w naszej organizacji, aby poprawić innowacje dzięki współpracy.

    – Nicolette Bullivant – kierownik ds. inżynierii danych, Santander Wielka Brytania

Wiele miejsc docelowych:jeden strumień, aby rządzić nimi wszystkimi

Nieprzetworzone strumienie zdarzeń, które są generowane ze starszych systemów, są uważane za kanoniczne i są na ogół wymagane przez innych interesariuszy korzystających z klastra. Zespół ds. innowacji danych Santander UK przyjął zasadę zapewnienia, że ​​te strumienie zdarzeń są dostępne do wykorzystania przez różne przypadki użycia i technologie; w ten sposób kanoniczny strumień zdarzeń może być redystrybuowany do różnych miejsc docelowych; system plików HDFS, Apache HBase lub Apache Kudu. Pomaga to stworzyć jedną wersję prawdy dla wszystkich interesariuszy, jednocześnie unikając presji na starsze systemy.

Wniosek

Krótko mówiąc, Santander UK wprowadza innowacje bezpośrednio w stosie Cloudera, łącząc dane strumieniowe, zaawansowane zasady i ramy inżynierii oprogramowania oraz nowoczesne zasady projektowania hurtowni danych, aby generować wgląd w czasie rzeczywistym w celu poprawy jakości obsługi klienta i jego dobrostanu finansowego. Ta innowacja została niedawno doceniona przez zewnętrzny panel jurorów, który wybrał Santander na finalistę nagrody Data Impact Award.

Nicolette Bullivant jest dyrektorem ds. inżynierii danych w Santander UK.
Rob Siwicki jest starszym architektem rozwiązań w Cloudera’s Professional Services, EMEA.


  1. Redis
  2.   
  3. MongoDB
  4.   
  5. Memcached
  6.   
  7. HBase
  8.   
  9. CouchDB
  1. Przedstawiamy zasady partycji kompaktowania Apache HBase Medium Object Storage (MOB)

  2. Czym jest praca tylko z mapą w Hadoop?

  3. Porównanie Apache HBase z Apache Cassandra na SSD w środowisku chmury

  4. Transformacja cyfrowa to podróż danych od krawędzi do wglądu

  5. Świadomość szafy w Hadoop i jej zalety