Database
 sql >> Baza danych >  >> RDS >> Database

Anatomia roli programisty:analityk danych

Dwanaście lat temu, kiedy pisałem pierwsze artykuły do ​​„Cracking the Code:Breaking Down the Software Development Roles”, podjąłem świadomą i być może kontrowersyjną decyzję, by nie uwzględniać administratora bazy danych lub architekta bazy danych jako części ról. Decyzja została podjęta, ponieważ niewiele organizacji zajmowało się skalą danych, która wymagała tej dedykowanej roli w procesie tworzenia oprogramowania. Architekt rozwiązań mógłby zająć się potrzebą organizacji zaprojektowania struktury danych w ramach ich ogólnej roli. Jednak od tego czasu świat danych stał się większy.

Wielkie dane

Dzisiaj mamy do czynienia z większą objętością, większą szybkością i dynamiczną różnorodnością przetwarzanych przez nas źródeł danych. Nie mówimy o typowych relacyjnych bazach danych, które są popularne od dziesięcioleci. Ekspansja danych wymaga zestawu technik i umiejętności, które różnią się od historycznych podejść do danych, z których korzystaliśmy.

Wielowątkowość naszego przetwarzania danych jest ulepszeniem podejścia jednowątkowego do przetwarzania danych, które spopularyzowało przetwarzanie danych w latach 80.; jednak nawet te podejścia, które opierają się na pojedynczym komputerze z wieloma wątkami wykonania, załamują się, gdy ilość przetwarzania niezbędnego do wyodrębnienia znaczenia przekracza pojemność pojedynczej maszyny.

Powstanie komputerów opartych na usługach

W 1999 r. użytkownicy w domu mogli przekazać swoje zapasowe cykle obliczeniowe na swoich komputerach na rzecz znalezienia pozaziemskiej inteligencji za pośrednictwem projektu [email protected] prowadzonego przez UC Berkeley. Nie było to pierwsze zastosowanie szeroko rozproszonego przetwarzania lub przetwarzania siatkowego, ale jest to projekt, który poruszył wyobraźnię użytkowników Internetu na całym świecie. Nagle mieli możliwość bycia tymi, którzy znaleźli „ET”. W trakcie budowy projekt rozesłał ogromne ilości danych do przetworzenia na wiele komputerów, które wykonały obliczenia na danych, aby sprawdzić, czy istnieją interesujące fragmenty, które prawdopodobnie nie były tylko szumem tła. [email protected] był tylko jednym z projektów przetwarzania rozproszonego, który uświadomił problemy, w których pojedynczy komputer nie wystarczy.

IBM, Microsoft i inne firmy oferują teraz usługi komputerowe i uczenia maszynowego, aby pomóc organizacjom radzić sobie z przechwyconymi danymi i nadać im sens, dzięki czemu nie muszą mobilizować armii zaangażowanych wolontariuszy. Platformy mają na celu zapewnienie mocy obliczeniowej i uczenia maszynowego niezbędnego do wydobycia informacji ukrytych w wolumenach danych. Zamiast organizacji, które muszą budować i wdrażać własne centra danych z dedykowanymi zasobami obliczeniowymi, zasoby do przekształcania danych w informacje i znaczenie są dostępne do wynajęcia.

Nie chodzi o dane, chodzi o spostrzeżenia

Mimo że ilość danych, które przechwytujemy, jest oszałamiająca, to nie dane są interesujące. Interesujące jest to, co mogą ci powiedzieć dane — jeśli jesteś w stanie je przeanalizować. Poszczególne odczyty wydajności silnika nie są ważne, ale umiejętność przewidzenia, kiedy silnik wymaga konserwacji lub może ulec awarii — to ważne.

Analitycy danych nie koncentrują się na przechowywaniu danych, jak architekci danych i administratorzy baz danych. Zamiast tego koncentrują się na konwersji danych na informacje i ostatecznie na spostrzeżeniach, które firma może wykorzystać do podejmowania lepszych decyzji. Oznacza to poszukiwanie nowych podejść do analizy danych w sposób, który ujawnia interesujące spostrzeżenia, które firma może wykorzystać na swoją korzyść.

Stojąc na setach i statystykach

Tradycyjny procesjonalny rozwój oprogramowania jest zaznajomiony z proceduralnym podejściem do rozwiązywania problemów. Deweloperzy, liderzy i architekci są dobrze wyszkoleni w metodach i zaletach konstrukcji proceduralnych. Podejścia proceduralne są jak automatyzacja niezwykle posłusznego, ale nie oryginalnego pracownika. Komputer otrzymuje polecenie wykonania kroków (procedury), w jakiej kolejności i pod jakimi warunkami powinien powtórzyć operację lub podzielić na wiele ścieżek. Jednak analitycy danych pracują nie tylko z podejściami proceduralnymi, ale także z logiką opartą na zbiorach. Styl myślenia jest inny, ponieważ szuka luk i przecięć. Funkcjonuje w oparciu o relacje równości i nierówności między różnymi zestawami informacji.

Mimo że niektórzy programiści zetknęli się w swojej pracy z logiką opartą na zbiorach, analitycy danych muszą czuć się swobodnie i biegle w manipulowaniu zbiorami informacji.

Ponadto, w przeciwieństwie do innych ról w cyklu rozwoju oprogramowania, badacz danych potrzebuje specjalistycznej umiejętności poza sferą tworzenia oprogramowania. Ponieważ naukowcy zajmujący się danymi szukają wglądu w relacje między różnymi bitami danych, potrzebują solidnych podstaw w statystykach, aby móc wyszukiwać i generować wartości statystyczne, takie jak korelacja, w celu odpowiedzi na zadawane pytania i znajdowania niedokładnych relacji między różnymi zestawami danych.

Gdzie w ogóle jest nagłówek pozycji?

Wzrost danych osiągnął punkt krytyczny. Niezależnie od tego, czy chodzi o analizę sieci społecznościowych, historię kliknięć, czy dane o zakupach, organizacje dostrzegają prawdziwą wartość biznesową w danych, które są zamknięte w ich bazach danych, a analitycy danych są kluczem do uwolnienia potencjału tych danych.

Przechwycenie tej wartości oznacza zatrudnienie ludzi, którzy mają umiejętności łączenia algorytmów przetwarzania z danymi i wykorzystania mocy obliczeniowej do tworzenia tych wyników.

Dobry, zły i brzydki

Nauka o danych eksploduje teraz wraz z pojawieniem się urządzeń Internetu Rzeczy, które rejestrują wszelkiego rodzaju dane z różnych miejsc. Oznacza to wielką szansę — i więcej niż kilka wyzwań. Oto tylko kilka z tych wyzwań:

  • Dobrze: Jest świetna okazja, aby znaleźć nowe sposoby wydobywania spostrzeżeń z danych.
  • Dobrze: Zasoby obliczeniowe i magazynowe można kupić w dużych ilościach.
  • Dobrze: Analitycy danych są bardzo poszukiwani i prawdopodobnie pozostaną tacy przez jakiś czas.
  • Źle: Wraz z ewolucją algorytmów i podejść będziesz czuć się zawsze nieaktualny.
  • Źle: Wszystkie dane wymagają oczyszczenia, a znaczna ilość czasu zostanie poświęcona na tę pracę.
  • Brzydkie: Próby i błędy będą oznaczać wiele „porażek” i niewiele triumfów.

Na zakończenie

Rola Data Scientist ma szybko rosnące potrzeby i inny zestaw umiejętności. Jeśli podobały Ci się zajęcia ze statystykami i uwielbiasz znajdować wzorce, których inni ludzie nie widzą, może to być właśnie dla Ciebie.


  1. Database
  2.   
  3. Mysql
  4.   
  5. Oracle
  6.   
  7. Sqlserver
  8.   
  9. PostgreSQL
  10.   
  11. Access
  12.   
  13. SQLite
  14.   
  15. MariaDB
  1. Były dyrektor Capgemini, Sunitha Ray, dołącza do ScaleGrid DBaaS w celu rozszerzenia sprzedaży korporacyjnej

  2. Instrukcja SQL WHERE

  3. Łączenie SQuirreL SQL z Microsoft Excel

  4. ) Operator dla początkujących

  5. Jak zainstalować i skonfigurować Zabbix na Ubuntu 20.04