Anonimizacja identyfikatorów pośrednich w celu zmniejszenia ryzyka ponownej identyfikacji

Quasi-identyfikatory lub identyfikatory pośrednie są osobistymi atrybutami, które są prawdziwe, ale niekoniecznie unikalne dla osoby. Przykładami są wiek lub data urodzenia, rasa, wynagrodzenie, wykształcenie, zawód, stan cywilny i kod pocztowy. Porównaj je z bezpośrednimi, unikalnymi identyfikatorami, takimi jak pełne imię i nazwisko osoby, adres e-mail, numer telefonu, dowód osobisty, numer paszportu lub karty kredytowej itp.

Większość konsumentów jest już świadoma zagrożeń związanych z udostępnianiem swoich unikalnych informacji umożliwiających identyfikację osób (PII). Branża bezpieczeństwa danych zazwyczaj koncentruje się również na tych bezpośrednich identyfikatorach. Ale za pomocą tylko płci, daty urodzenia i kodu pocztowego można zidentyfikować 80-90% populacji USA.

Prawie każdego można ponownie zidentyfikować na podstawie zamaskowanego zestawu danych, jeśli pozostanie wystarczająca liczba identyfikatorów pośrednich i można je połączyć z populacją superzbioru o podobnych wartościach.

Zasada HIPAA Expert Determination Method odnosząca się do chronionych informacji zdrowotnych (PHI) i prawo FERPA dotyczące prywatności danych uczniów uwzględniają te obawy i wymagają, aby zestawy danych miały statystycznie niskie prawdopodobieństwo ponownej identyfikacji (poniżej 20% jest obecnie standardem). Osoby, które chcą wykorzystywać dane medyczne i edukacyjne do celów badawczych i/lub marketingowych, muszą przestrzegać tych przepisów, ale także polegać na dokładności demograficznej quasi-identyfikatorów, aby dane były cenne.

Z tego powodu zadania maskowania danych w produkcie IRI FieldShield lub IRI Voracity (platforma zarządzania danymi) mogą zastosować jedną lub więcej dodatkowych technik zaciemniania danych, zachowując jednocześnie ich dokładność do celów badawczych lub marketingowych. Na przykład funkcje rozmycia numerycznego tworzą losowy szum dla określonych przedziałów wiekowych i dat, jak opisano w tym artykule.

Opierając się na artykule tutaj, ten przykład pokaże, jak IRI Workbench może tworzyć i używać plików zestawów do anonimizacji quasi-identyfikatorów.

Zacznij od Uogólniania przez Bucketing Kreator, dostępny z listy reguł ochrony danych:

Po otwarciu kreatora zacznij definiować źródło wartości dla pliku zestawu, w tym format źródłowy i pole wymagające uogólnionej wartości zastępczej.

Na następnej stronie są dwa rodzaje podstawienia plików zestawu:Użyj pliku zestawu jako grupy i Użyj zestawu jako zakresu opcje. Ten przykład wykorzystuje Użyj pliku zestawu jako grupy opcja. Artykuł o rozmywaniu danych pokazuje, jak Użyj plików zestawu jako zakresu opcja. Zbudowane tutaj zestawy odnośników zostaną użyte do pseudonimizacji oryginalnych quasi-identyfikatorów za pomocą nowej wartości uogólnienia.

Ta strona jest miejscem, gdzie tworzone są grupowania pomiędzy każdym z oryginalnych quasi-identyfikujących wartości pól. Po lewej stronie znajdują się unikalne wartości we wcześniej wybranym polu. Grupy można tworzyć, przeciągając i upuszczając wartości grup po lewej stronie lub ręcznie wprowadzając wartości. Każda grupa potrzebuje również unikalnej wartości zastępczej. Jest to wartość, która zastąpi oryginalną wartość w grupie. W tym przykładzie dowolna wartość „9” zostanie zastąpiona przez „High School”.

Dodanie grup do momentu pokrycia wszystkich wartości źródłowych daje następujący plik zestawu wyszukiwania do anonimizacji quasi-identyfikatora statusu edukacyjnego:

Jeśli wymagane są dodatkowe poziomy zasobników, kreator zasobników można uruchomić ponownie, używając tego zestawu jako źródła.

Gdy plik zestawu jest używany w zadaniu anonimizacji danych, dane źródłowe są porównywane z wartościami w pierwszej kolumnie pliku zestawu. Jeśli zostanie znalezione dopasowanie, dane zostaną zastąpione wartością z drugiej kolumny. Powyższy plik zestawu jest używany w poniższym skrypcie w linii 38.

Użycie Workbencha do zastosowania pięciu różnych technik anonimizacji daje następujący skrypt:

Pierwsze dziesięć wierszy oryginalnych danych jest pokazanych tutaj:

Anonimowe wyniki po uruchomieniu zadania są pokazane tutaj:

Przed tymi uogólnieniami ryzyko ponownej identyfikacji na podstawie pierwotnych wartości identyfikujących pośrednio było zbyt wysokie. Ale kiedy bardziej uogólniony zestaw wyników zostanie ponownie przepuszczony przez kreator punktacji ryzyka w celu ponownego określenia ryzyka ponownej identyfikacji, ryzyko jest akceptowalne, a dane nadal są przydatne do celów badawczych lub marketingowych.

Jeśli masz jakiekolwiek pytania dotyczące tych funkcji lub oceny ryzyka ponownej identyfikacji, skontaktuj się z .