Database
 sql >> Baza danych >  >> RDS >> Database

Zrozumienie analizy Big Data

Wielkie dane przydaje się tylko wtedy, gdy możemy coś z nim zrobić; w przeciwnym razie to po prostu kupa śmieci. Jednak wysiłek wymagany do kopania jest czasami jak próba znalezienia igły w stogu siana. Znaczący wzorzec wyłania się dopiero po przeprowadzeniu wielu analiz. Analytics zabiera się do pracy, próbuje analizować dane za pomocą każdej dostępnej maszyny, w tym mózgów. Te maszyny to nic innego jak narzędzia, którym towarzyszy moc obliczeniowa do eksploracji danych. W tym artykule podjęto próbę przedstawienia krótkiego przeglądu technik stosowanych w analizie Big Data.

Przegląd

Przed analizą dane są zbierane z różnych źródeł. Musisz to zaaranżować w taki sposób, aby analityk mógł wykonywać swoją pracę i dostarczać namacalne produkty danych przydatne dla procesu biznesowego organizacji. Zebrane dane mogą znajdować się w różnych stanach, takich jak nieustrukturyzowane surowe dane, częściowo ustrukturyzowane dane, ustrukturyzowane dane i tak dalej. To są surowce do analizy big data. Następnie złożony proces eksploracji zaczyna odkrywać ukryte wzorce, korelacje i spostrzeżenia. Analitycy korzystają z pomocy wszelkich dostępnych narzędzi i technologii w procesie analizy i starają się wydobyć z tego jakąś wartość. W związku z tym, co analiza danych oznacza proces badania dużego zestawu danych (z co najmniej jedną cechą, która określa je jako duże zbiory danych) i odkrycia pewnych znaczących informacji.

Podstawowe analizy

Analityk musi najpierw upewnić się, że dane mają pewną wartość, zanim zastosuje rygorystyczne wysiłki i zasoby do analizy danych. Czasami prosta wizualizacja i statystyki są tym, czego potrzebujesz, aby uzyskać jakieś wyniki. Podstawowe techniki są następujące:

  • Podstawowe monitorowanie: Monitorowanie dużej ilości danych w czasie rzeczywistym to również jeden ze sposobów na uzyskanie pewnego wglądu. Na przykład, po prostu monitorując dane meteorologiczne gromadzone przez lata, możemy uzyskać całkiem spory wgląd w rodzaje warunków klimatycznych danego regionu geograficznego. Ponadto informacje w czasie rzeczywistym o wietrze, wilgotności, ciśnieniu, temperaturze itp. mogą rzucić światło na rodzaj nadchodzącej burzy. Jeśli połączymy każdą kropkę, może być wiele parametrów z ogromną informacją. Dzisiaj, jeśli uda nam się wykorzystać trend wszystkich tweetów w mediach społecznościowych, możemy łatwo zorientować się, co myślą masy i co myślą. Analityk polityczny często to robi, a to, co robią, to po prostu monitorowanie danych przesyłanych strumieniowo.
  • Krojenie i kostka: Ta powszechna technika odnosi się do segmentacji dużego bloku danych na mniejsze zestawy danych, dzięki czemu można je łatwo przeglądać i rozumieć. Segmentacja jest wykonywana w sposób powtarzalny, aż do uzyskania łatwiejszego do zarządzania rozmiaru. Specyficzne zapytania są uruchamiane w celu uzyskania pewnego wglądu lub wykonania obliczeń, stworzenia reprezentacji graficznej lub zastosowania formuły statystycznej na mniejszych zbiorach danych. Pomaga to ustalić pewną perspektywę dla analityka siedzącego w morzu danych. Zapytania można mieć tylko wtedy, gdy perspektywa jest określona. Dlatego technika ta pomaga w budowaniu przestrzeni zapytań podczas pracy z dużą ilością danych.
  • Wykrywanie anomalii: Anomalia , tutaj odnosi się do nagłej zmiany wydarzeń zachodzącej w środowisku, która może wywołać różne efekty. Na przykład nagły spadek wartości Sensex może mieć wiele przyczyn, takich jak nagłe zmiany społeczno-polityczne, wojna lub klęski żywiołowe lub wiele innych. Ale jeśli uda nam się wykryć anomalię, daje to cenny wgląd w zrozumienie i analizę sytuacji. Prosty zestaw statystyk lub obserwacji może również pomóc w rozwiązaniu problemu.

Analityka zaawansowana

Jak powinno być oczywiste, analiza nie zawsze jest prosta lub prosta. W rzeczywistości w wielu przypadkach zależy to od złożoności danych, a rodzaj informacji, które chcemy wydobyć, określa rodzaj analityki, którą chcemy zaangażować w proces. Zaawansowana analityka wykorzystuje algorytmy do kompleksowej analizy różnych formatów danych, takich jak uczenie maszynowe, sieci neuronowe, zaawansowane modele statystyczne, analiza tekstu i zaawansowane techniki eksploracji danych, aby uzyskać pewien znaczący wzór z ilości danych.

  • Analiza tekstu: Analiza tekstu to proces, w którym znaczące informacje są uzyskiwane ze zbioru nieustrukturyzowanych danych. Radzenie sobie z nieustrukturyzowanymi danymi to ogromna część analizy big data; w związku z tym stosuje się określone techniki do analizy i wyodrębniania informacji, a następnie przekształcania ich w ustrukturyzowane informacje. Uporządkowane informacje są następnie wykorzystywane do wygodnej dalszej analizy. Techniki stosowane w analityce tekstu wywodzą się z lingwistyki komputerowej, statystyki i innych dyscyplin informatyki.
  • Modelowanie predykcyjne: Modelowanie predykcyjne wykorzystuje rozwiązania do eksploracji danych i prawdopodobieństwo do przewidywania wyników. Technikę stosuje się zarówno do danych ustrukturyzowanych, jak i nieustrukturyzowanych w celu prognozowania wyniku. Na przykład system predykcyjny może przewidywać liczbę konsumentów przechodzących na inny produkt na podstawie pewnych dostępnych atrybutów behawioralnych lub przewidywać zmianę w sposobie myślenia ludzi, obserwując trend tweetowania w mediach społecznościowych, który może mieć decydujące znaczenie społeczno-polityczne. wynik w kampanii politycznej.
  • Korzystanie ze statystycznych algorytmów eksploracji danych: Istnieje wiele innych zaawansowanych technik prognozowania z wykorzystaniem statystyk i rozwiązań do eksploracji danych. Istnieją techniki, takie jak analiza skupień, mikrosegmentacja, analiza powinowactwa i tym podobne.

Wniosek

Ten artykuł oczywiście tylko zarysowuje temat, ale być może daje przedsmak tego, co można nazwać analityką big data. Trend wykorzystywania big data przez organizacje szybko nabiera tempa, zarówno z dobrych, jak i złych powodów. Wynik niewątpliwie jest otwarty do wykorzystania i nadużycia i nie możemy go powstrzymać. Powstają nowe narzędzia i technologie wspomagające proces analizy big data. Być może jedynym wytchnieniem jest świadomość.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Wewnętrzne elementy Z SZYFROWANIEM

  2. Jaki jest najskuteczniejszy sposób na skrócenie czasu od daty do czasu?

  3. Więcej operacji online dostępnych teraz – lub wkrótce

  4. Opieranie modeli baz danych na rzeczywistości:wyzwanie blogera

  5. Porównywanie obiektów według wartości. Część 6:Wdrażanie równości struktury