5 typowych błędów, których należy unikać podczas deduplikacji danych

Dane to potęga, a wraz z nią wielka odpowiedzialność. Jedną z największych przeszkód w danych jest identyfikacja duplikatów i usuwanie duplikatów.

Celem deduplikacji danych jest wyeliminowanie nadmiarowych danych w Twojej firmie. Duplikaty są tworzone we wszystkich obszarach Twojej firmy, na przykład przedstawiciel handlowy wprowadza nowy rekord bez uprzedniego sprawdzania bazy danych, marketer przesyłający listę potencjalnych nabywców bez sprawdzania, czy rekord istnieje, oraz klient, który ponownie wprowadza swoje informacje, ponieważ o nich zapomniał masz już konto.

Deduplikacja danych zapewnia właściwe zarządzanie danymi takich rekordów, ograniczenie przechowywania danych, skuteczniejszą komunikację marketingową oraz lepszą analizę predykcyjną. Zduplikowane rekordy mogą w rzeczywistości mieć ogromny wpływ na rekordy uczenia maszynowego i nauki o danych, teoretycznie dając klientom dwukrotnie większą moc predykcyjną, a tym samym powodując błąd w wynikach.

Jednak z każdym świetnym pomysłem wiąże się ryzyko, a w ramach strategii deduplikacji, w której dane są usuwane przez większość czasu, mogą wystąpić nieodłączne błędy.

Przetwarzanie w linii lub post

Wbudowane procesy deduplikacji usuwają duplikaty danych podczas ich przetwarzania. Oznacza to, że natychmiast zmniejsza ilość danych, co jest świetne, ale często ma problemy z wydajnością z ilością zasobów wymaganych do uruchomienia takiej strategii. Oznacza to jednak, że potrzebujesz znacznie mniej surowego miejsca na dysku, ponieważ dane nigdy nie są w rzeczywistości przesyłane, ponieważ deduplikacja jest przeprowadzana na interfejsie użytkownika.

Ważne jest, aby upewnić się, że dysponujesz mocą przetwarzania do wbudowanej deduplikacji i nie wpływa to na wydajność. Innym błędem jest założenie, że nie ma przypadków posiadania duplikatów. Istnieją uzasadnione potrzeby posiadania duplikatów w twoim systemie. Przyczyny mogą być związane z rozliczeniami, obsługą klienta, sprzedażą i marketingiem, dlatego dobrze jest skonsultować się ze wszystkimi działami, które dotykają danych przed wdrożeniem przetwarzania in-line.

Algorytmy

Deduplikacja jest tak dobra, jak algorytmy, którymi jest zasilana, tj. w jaki sposób w pierwszej kolejności wykrywane są duplikaty rekordów? Załóżmy, że w naszych systemach mamy 100 kopii pliku, ponieważ każdy pracownik miał swoją wersję. Zamiast przechowywać wiele kopii, dobra praktyka mówi, aby przechowywać tylko jedną kopię i aby wszyscy pracownicy wskazywali na to. Co się stanie, jeśli jeden z pracowników dokona zmiany we własnym pliku, co oznacza, że różni się on nieco od pozostałych? Ryzykujesz utratę danych. Ważne jest, aby upewnić się, że wszelkie ustawione reguły mają sens i nie zaczynają przez pomyłkę usuwać unikalnych zestawów danych.

Istnieje kilka popularnych algorytmów używanych do deduplikacji danych, takich jak SHA-1 lub MD5 oraz Struktury drzewa wyszukiwania binarnego, które warto przejrzeć, aby znaleźć najbardziej odpowiedni dla siebie.

Chociaż deduplikacja zestawów danych w powyższym przykładzie może być łatwo rozwiązana przez naukowców zajmujących się danymi. W przypadku rekordów sprzedaży i marketingu jest to nieco trudniejsze. Weź pod uwagę, że różne firmy różnie definiują duplikaty, nie jest to już zadanie dla analityka danych, ale raczej dla kierowników różnych działów. Dlatego pierwszym krokiem jest określenie, co stanowi duplikat. Weźmy na przykład giganta handlu detalicznego, takiego jak Walmart. W przypadku firmy dystrybucyjnej każda lokalizacja Walmart byłaby uważana za unikalny rekord, jednak w przypadku firmy zajmującej się oprogramowaniem sprzedającym w Walmart uznaliby wszystkie lokalizacje za duplikaty, ponieważ chcą sprzedawać tylko do siedziby głównej. To samo można powiedzieć o sprzedaży do P&G, gdzie niektóre firmy sprzedają osobno każdą markę. Dlatego chcą zachować je wszystkie oddzielnie i zastosować połączenie rodzic/dziecko zamiast deduplikować w celu zidentyfikowania różnych marek. Dlatego przed deduplikacją upewnij się, że masz zdefiniowane wszystkie reguły przed ustaleniem algorytmu, który ma być użyty do deduplikacji danych.

Szyfrowanie

W przypadku ochrony danych często zdarza się, że zespoły ds. bezpieczeństwa będą miały szyfrowane dane, gdy wchodzą do firmy, co oznacza, że nie można ich zdeduplikować, ponieważ w tym kontekście wszystko jest wyjątkowe. Jeśli używasz produktów do replikacji i szyfrowania zgodnych z oprogramowaniem do deduplikacji, istnieje bardzo duża szansa, że pliki zostaną zreplikowane, ponieważ po prostu nie można ich wybrać jako unikalnych bloków pamięci.

Produkty do ochrony danych są czasami świadome deduplikacji, ale ważne jest, aby wziąć pod uwagę, w jaki sposób wszystko się integruje.

Ręczna deduplikacja

Większość firm będzie próbowała ręcznie deduplikować swoją bazę danych, pochłaniając ogromne ilości zasobów i czasu, co wiąże się z dużym ryzykiem błędu ludzkiego. Poza tym, przy ogromnych zestawach danych, praktycznie niemożliwe jest, aby procesy ręczne wyłapały wszystko.

Na przykład, co się stanie, jeśli Jan Kowalski kupi dziś w Twojej witrynie parę butów. Wraca jutro, ale rejestruje się jako J Smith, ponieważ zapomniał swoich danych logowania. W przyszłym tygodniu rejestruje się ponownie, ale z innym adresem e-mail. Wspomniałem tutaj tylko o trzech polach danych, ale już zaczyna się to komplikować, więc wyobraź sobie, że masz 200 pól danych klientów, w jaki sposób zapewniasz, że są one unikatowe?

Ważne jest, aby samodzielnie skonstruować pełne algorytmy, jeśli chodzi o proces ręczny lub pozyskujesz narzędzia do czyszczenia danych, które zrobią to za Ciebie, oszczędzając cały ten czas i wysiłek.

Kopie zapasowe

Deduplikacja może się nie udać! Przed usunięciem duplikatów ważne jest, aby wykonać kopię zapasową wszystkiego i szybko rozwiązać wszelkie problemy. Wracając do naszego wcześniejszego przykładu, co jeśli odkryjemy, że John Smith i J Smith to w rzeczywistości różne osoby i muszą odzyskać konto? Potrzebujesz procesu, który może to zrobić, co jest wymogiem prawnym w UE (RODO).

Strategia deduplikacji danych jest ważna, ponieważ firmy zwiększają swój cyfrowy ślad. Przy tak wielu kanałach komunikacji tylko jeden zduplikowany rekord może powodować stronniczość i potencjalnie prowadzić do błędnych decyzji. To powiedziawszy, należy to zrobić właściwie, aby uniknąć konsekwencji usunięcia niewłaściwych rekordów lub nieprawidłowego zasilania algorytmów i zmniejszenia prędkości biznesowej. Upewnij się, że deduplikacja danych jest w pełni ukształtowana w ramach Twojej strategii zarządzania danymi.