SSN Nauka – Pytania


Original: http://www.heinz.cmu.edu/~acquisti/ssnstudy/

Streszczenie

Numery ubezpieczenia społecznego zostały utworzone na mocy ustawy o zabezpieczeniu społecznym z 1935 roku jako identyfikatorów kont śledzenia indywidualnych dochodów. Jednak z czasem, zaczęli stosowane jako delikatnych urządzeń uwierzytelniających, stając się jednym z elementów informacji najczęściej poszukiwanych przez złodziei tożsamości: wiedza o nazwisko osoby, SSN i ​​danych urodzenia, często jest warunkiem wystarczającym do podszywania się pod tę osobę i uzyskać dostęp do wielu usług, co prowadzi do tak zwanej kradzieży tożsamości. Obecna polityka publiczna w zakresie kradzieży tożsamości wskazuje, że SSNs powinny być traktowane jako poufne: konsumenci są zachęcani do ochrony swoich SSNs. Jednak, pokazują, że jest to możliwe do przewidzenia indywidualnych SSNs po prostu z publicznie dostępnych danych. Na podstawie obserwacji wzorców emisji w “Master File śmierć” (publiczna baza danych, która zawiera SSNs ludzi, którzy zmarli), byliśmy w stanie wykorzystać informacje na temat jednostki daty i stan urodzenia przewidzieć wąskie zakresy wartości może zawierać że indywidualne w SSN. Przewidywania są szczególnie dokładne dla SSNs ludzi, którzy urodzili się po roku 1988 (gdy SSA wszczęła wyliczenia w programie urodzenia, przez które dzieci otrzymują SSNs wkrótce po urodzeniu) oraz w państwach o niższym populacji. Od SSNs są przewidywalne z danych publicznych, kradzieży tożsamości może nastąpić nawet bez zdarzeń, takich jak naruszenia bezpieczeństwa danych. Niektóre z konsekwencji jest to, że 1) SSA powinna losowo cały proces przydziału SSN, 2) aktualne inicjatywy polityczne w dziedzinie Stoczni Szczecińskiej i kradzieżą tożsamości, należy ponownie rozważyć: najbardziej kształtowania polityki koncentruje się obecnie na usunięcie SSNs z baz danych lub redagowania swoich cyfr , tak, że mogą one być nadal używane jako “poufnej informacji” – jednak, ponieważ SSNs jest przewidywany na podstawie danych w przeciwnym razie udostępnione, SSNs nie może być poufne, nawet jeśli są one usuwane z baz danych, a zatem te inicjatywy mogą być nieskuteczne, 3) od SSNs można przewidzieć, a zatem, w pewnym sensie, pół-informacji publicznej, konsumenci nie powinni być zobowiązani przez podmioty sektora prywatnego do korzystania SSNs jak hasła lub uwierzytelniania.

Pytania ogólne

Pytanie: Co to jest badanie na temat?

Badaliśmy schemat cesji numerów PESEL (SSNs) i odkrył, że poszczególne SSNs można przewidzieć w całości z danych publicznych. W szczególności okazało się, że możliwe jest łączenie informacji ze źródeł rządowych z prostych danych demograficznych (takich jak jednostki stanu i daty urodzenia, powszechnie dostępnej z komercyjnych baz danych, list rejestracji wyborców, lub internetowych sieci społecznych), aby przewidzieć, wąskie zakresy wartości w którym poszczególne SSNs spadną.

Pyt. Dlaczego ta sprawa badania? Dlaczego przewidywalność SSNs problemowych?

SSNs mają być poufne informacje – przewidywalność SSNs zwiększa ryzyko ogromna skalę kradzieży tożsamości.

SSNs były pierwotnie zaprojektowane w 1930 roku, aby być wykorzystywane jako identyfikatory kont śledzenia indywidualnych dochodów. Jednak z czasem zaczęli być użyta “ uwierzytelniania” w różnych usług sektora prywatnego – to jest do sprawdzenia tożsamości i określenia, czy ktoś jest, kim on / ona twierdzi, że jest. Stąd przyszli się za poufne informacje. Nieodłączne napięcia między stosując ten sam numer jako identyfikator konta (które mogą być dzielone z innymi stronami), a także “hasło” (który ma być prywatne i poufne) przyczynił się do wzrostu kradzieży tożsamości. W USA, znajomość czyjegoś nazwiska, daty urodzenia, i SSN jest często wystarczającym warunkiem do podszywania się pod tę osobę finansowych, rodzajów oszustw medycznych lub innych. Tak więc, jeśli SSNs można przewidzieć na podstawie ogólnodostępnych danych, zwiększa się ryzyko kradzieży tożsamości.

P. Jakie są implikacje wyników?

Po pierwsze: SSNs, w obecnej formie, są wysoce niepewne hasła i nie powinien być używany do uwierzytelniania. Jeśli można z powodzeniem określić wszystkie dziewięć cyfr na Stocznię Szczecińską w mniej niż 10, 100, a nawet 1000 prób, że numer PESEL nie jest bardziej bezpieczne niż PIN trzycyfrowym. Obie agencje rządowe (w tym SSA i FTC) i naukowcy (np. [LoPucki, 2003], [Samuelson, 2007], [Solove, 2003]) ostrzegają przed używaniem SSNs uwierzytelniania. Niestety, SSNs są nadal używane (i nadużywane) wszędzie w sektorze prywatnym w celu uwierzytelnienia tożsamości, co prowadzi do rozpowszechnionych przestępstw kradzieży tożsamości.

Po drugie: Aktualne inicjatywy legislacyjne i strategiczne w zakresie zapobiegania kradzieży tożsamości, które koncentrują się na usuwaniu SSNs z publicznej ekspozycji lub redagowania ich pierwsze pięć cyfr są dobre intencje, ale może być błędne – bo nawet zredagowane lub usunięte SSNs pozostanie przewidywalny z publicznie w inny sposób dostępne dane.

Po trzecie: W szerszym kontekście, nasze wyniki podkreślają nieoczekiwanych skutków oddziaływania wielu źródeł danych w nowoczesnych gospodarkach informacyjnych. Pokazują one, jak nie-wrażliwe dane osobowe (takie jak ludzie informacje ujawnić o sobie online) można łączyć z innymi źródłami danych, również niewrażliwe, co prowadzi do wnioskowania o informacje dużo bardziej wrażliwy.

Q. Dlaczego publikowanie tych wyników?

SSNs są bardzo niepewne hasła. Jednak mimo ostrzeżeń wielu agencji rządowych (w tym SSA i FTC), są one często stosowane w sektorze prywatnym, zarówno jako identyfikatorów i uwierzytelniania – to powoduje koszty i odszkodowania miliardów dolarów rocznie na przedsiębiorców i konsumentów. Naszym zamiarem jest, aby pokazać, że w ich obecnej formie, SSNs zagroził haseł, aby nie ostrzegać tylko decydentów, ale także przedsiębiorstwa i konsumenci zagrożeń dla poszczególnych tożsamości wynikających ze stosowania (i nadużywanie) z SSNs jako środek uwierzytelniania oraz przyczynić się do debaty na temat bardziej wydajnych, bezpiecznych i zachowując prywatność środków weryfikacji tożsamości w społeczeństwie informacyjnym.

Kradzież tożsamości jest tak powszechne w USA, ponieważ numery ubezpieczenia społecznego są bezsensownie wykorzystywane przez przedsiębiorstwa zarówno jako identyfikatorów oraz haseł – coś, czego nigdy nie były przeznaczone do [Smith, 2002]. To jest praktyka, że ​​Samuelson Clinic na Uniwersytecie Kalifornijskim w Berkeley został zdefiniowany jako “ nieodpowiedzialne” [Samuelson, 2007] i że prawo uczony Daniel Solove został określany jako “architektury lukę” [Solove, 2003]. W USA, całkowite koszty kradzieży tożsamości w 2007 roku oszacowano na 49300000000 dolarów [Johannes, 2006]. Jak Chris Hoofnagle zauważyć [Hoofnagle, 2007], koszty te są ponoszone przez wszystkie strony, ale szczególnie przez konsumentów, zarówno bezpośrednio (stracony czas, niedogodności i out-of-pocket koszty) lub pośrednio (poprzez wyższe opłat wniesionych do usług kredytowych, lub jako podatników, gdy instytucje finansowe odpisać straty kradzieży tożsamości przy obliczaniu podatku dochodowego korporacyjnych). Ponadto, dodatkowe koszty są ponoszone co roku, nawet w przypadku braku oszustwa, ponieważ kosztów spowodowanych próbami obrony, i wykorzystać, system [idanalytics, 2005] – Weźmy na przykład, inwestycje, firmy i osoby prywatne są zobowiązane ponosić W celu ochrony wrażliwych danych. Pokazując, że SSNs są przewidywalne z danych publicznych, a zatem przeciętny jak hasła, mamy nadzieję pomóc zatrzymać koszty związane z ich stosowania jako środek weryfikacji tożsamości, i przekierować uwagę w stronę postępu badań na bezpiecznych, zachowaniu prywatności metod uwierzytelniania – od 2-uwierzytelnianie do certyfikatów cyfrowych.

Q. Jakie kroki można podjąć przed opublikowaniem wyników?

Między innymi, pominięto poufnych szczegółów strategii przewidywania z opublikowanym artykule, i dzielimy nasze wyniki z agencji rządowych przed publikacją.


Q. Jak wyniki wykorzystać do rozwiązania problemu kradzieży tożsamości? Czy masz praktyczne zalecenia?

Wyniki badań wskazują na szereg czynników i możliwych strategii dla podmiotów publicznych i prywatnych w sektorze, jak również dla osób fizycznych.

Agencje rządowe

Program cesja SSNs można zmienić włączenie prawdziwą przypadkowość. To wyeliminowałoby ryzyko przewidywalności dla nowo wyznaczonych SSNs – jednak nie zrobi wiele, aby chronić setki milionów SSNs już przypisane. Może to również uczynić nas samozadowolenie z zachowaniem obecnego – i niepewny – system, w którym SSNs są bezsensownie wykorzystywane przez podmioty sektora prywatnego, zarówno jako identyfikatorów i haseł publicznych prywatnych – role, które nigdy nie SSNs przeznaczona do wypełnienia, w którym zostały zaprojektowane w 1930 roku. Agencje rządowe (i politycy) może zamiast tego rozważyć incentivizing podmioty tego sektora, aby zrezygnować z korzystania (i karania nadużyć) z SSNs jak pomocą uwierzytelniania i może zachęcić akademickiego i przemysłu badania na temat stosowania bardziej wydajne, bezpieczne i prywatność zachowujący elektroniczne środki uwierzytelniania – takie jak 2-uwierzytelnianie i cyfrowe certyfikaty.

Decydenci

Aktualne inicjatywy polityczne w dziedzinie ochrony SSN i ​​zapobiegania kradzieży tożsamości może zostać ponownie [LoPucki, 2003]. Wiele obecnych inicjatyw w tej dziedzinie (patrz [GAO, 2008], [FTC, 2008]), jak również 2007 Prezydenta kradzieży tożsamości grupy zadaniowej zalecenia są dobre intencje, jednak koncentrują się one na usunięcie SSNs z publicznej ekspozycji (lub redacting pierwsze pięć cyfr), w celu zachowania rolę SSNs ‘jako wrażliwych numerami i środków uwierzytelniania [Prezydenta Identity Theft Task Force, 2007]. Nasze wyniki, zamiast sugerować, że podejście wyłącznie koncentruje się na usuwaniu lub redacting SSNs mogą być nieskuteczne lub błędne: określony cel SSNs nie może być odwołane w przyszłości uniknąć nadużyć, narażone danych nie może być odebrane, a pierwsze 5 cyfr numeru SSNs są te, W rzeczywistości, łatwiej wywnioskować. To pozostawia nawet zredagowane lub obcięte SSNs nadal przewidywalna, a więc wciąż zagrożone.

Agencji kredytowych sprawozdawczości, finansowe i inne instytucje

Agencje ratingowe i instytucje finansowe powinny zaprzestać używania SSNs do uwierzytelniania (czyli jako dowód tożsamości), oraz wzmocnienie ich tożsamości dopasowania strategii i technik uwierzytelniania. Sprawozdania FTC [FTC, 2004] i akademiach [Hoofnagle, 2007] pokazały, jak aplikacje kredytowe z nieprawidłowymi nazwami lub nawet błędnych cyfr SSN są rutynowo przyjęte jako ważne (bo raporty kredytowe są znane zawierać błędy i nieścisłości). Takie praktyki zostawić otwarte “dziury” w infrastrukturze weryfikacji tożsamości, że oszuści mogą i wykorzystania.

W rzeczywistości obie agencje sprawozdawczości kredytowej i inicjatywy, takie jak E-Verify i SSNVS powinny zwrócić szczególną uwagę i podwyższone próby zbrodni tożsamości, które polegają na “upadki”. Tumbling jest cyber-przestępca praktyka, która została już udokumentowana, a składa się z lekko zmienia dane liczbowe w fałszywych aplikacji, takich jak adresy i, w rzeczywistości, manipulacja znanych SSNs w wielu zastosowaniach rachunku [idanalytics, 2005].

Usługi online

Usługi online delegujących lub umożliwić użytkowników forum informacji demograficznych (z internetowych usług wyszukiwania osób do internetowych sieci społecznych) powinny rozważyć strategie (od wybierając odpowiednie ustawienia domyślne do ustawiania odpowiedniej polityki bezpieczeństwa), które w miarę możliwości starają się zrównoważyć potrzebę swobodnego przepływu danych i wymiany z ochrony przed nadużywaniem tych danych, kładąc szczególną uwagę pod uwagę, że nawet niewinne dane mogą być łączone w celu tworzenia bardziej poufne informacje, wraz z innymi źródłami.

Konsumenci

Realizując potencjalne wykorzystanie dokumentów publicznych jako “hodowcy” dokumentów danych bardziej wrażliwych, my, jako konsumenci, mogą podejmować bardziej świadome decyzje, handlu jednorazowych i porównanie korzyści z udostępniania online informacji z jego potencjalnych kosztów. Jednak problem nasz highlights papieru wykracza poza kontrolą użytkowników – jest to problem systemowy z powodu eksploatacji SSNs Bramki (uwierzytelnianie) nigdy nie zostały zaprojektowane do spełnienia. Stąd nacisk na pytania konsumentów do “ochrony” swoich SSNs [SSA, 2007] może być zagubiona, jeśli SSNs nawet dobre intencje konsumentów może być zagrożona z powodu informacji innych podmiotów wykazały o nich. Innymi słowy, nasze wyniki wskazują, że problem SSNs bezpieczeństwa wykracza znacznie poza odpowiedzialnością konsumentów i kontroli: że ma do czynienia z zastosowaniem (i nadużywanie) z SSNs w sektorze prywatnym do celów (takich jak uwierzytelnianie) nigdy nie zostały zaprojektowane do spełnienia. Jako konsumenci, mamy bardzo małą kontrolę w tej sprawie. Na koniec dnia, to jest problem, że systematyczna przemysł, decydentów politycznych i oczywiście naukowcy muszą rozwiązać.

Pytania techniczne


Pytanie: Co dokładnie to znaczy, że SSNs są “przewidywalne”?

Oznacza to, że informacje o stanie jednostki i data urodzenia może być wystarczające, aby statystycznie wywnioskować wąskie zakresy wartości w których tej osoby SSN może spaść.

“ Can,” bo to jest prawdziwe (w ogóle, i uproszczenia rzeczy trochę) tylko dla osób, które otrzymały ich SSN po chwili ich urodzenia (w 2005 r., co najmniej 92 procent SSNs przypisanych do obywateli amerykańskich zostały przydzielone w Narodziny [SSA, 2006]; procenty pacjentów przyjmujących ich SSNs na czas ich narodzin zaczęła dramatycznie wzrasta w latach 1980 w wyniku wyliczenia na inicjatywy urodzenia).

“Wartościom” oznacza, że ​​przewidywania są oparte na statystycznych nagromadzeniem: Ogólnie, pierwsze cyfry 5 można przewidzieć z bardzo dużą dokładnością z jednej próbie – zwłaszcza dla osób urodzonych po 1988 roku i w mniej zaludnionych Zjednoczonych. W niektórych przypadkach, byliśmy w stanie przewidzieć całych 9 cyfr poszczególnych SSNs na próbę pierwszy. Częściej przewidywania produkcji okien wartości, które mogą zawierać rzeczywiste 9 cyfr. Okna te mogą być bardzo duże (a więc niedokładne) dla niektórych lat i państw (na przykład, dla osób urodzonych w Kalifornii w 1973 roku), ale może być bardzo wąski (a zatem bardziej dotyczą, w zakresie ryzyka kradzieży tożsamości) do mniejsze państwa i lat wcześniejszych (np. 1 z 20 SSNs osób urodzonych w DE w 1996 roku w naszej bazy danych mogą być identyfikowane z zaledwie 10 lub mniej prób na SSN).

P. Jak Twoje prognozy SSN działa?

Nasze przewidywania są oparte na tym, że są przeznaczone SSNs według złożonego jeszcze regularne – wzór – i w związku z tym przewidzieć. Przewidywania działa w oparciu o interpolację jednostki daty i stan urodzenia z wzorami SSN emisji pochodzących z tzw “głównego pliku śmierci”, a publicznie dostępny SSNs zgłoszenia pliku, nazwiska, daty urodzenia i śmierci, i stany Stoczni Szczecińskiej Aplikacja dla osób, których śmierć donosili SSA (również znany jako Death Index SSDI lub SSN). Część procesu jest opisany w dokumencie PNAS. Pewne szczegóły zostały pominięte w publikacji.

Q. Jak sprawdzić swoje przewidywania?

Pobiegliśmy z dwóch testów. W pierwszym badaniu, że wykreśla się SSNs śmierci Master File (DMF) ewidencji czasu dla danych między 1973 i 2003. Zaobserwowaliśmy, że wzory statystyczne dane pojawiły się w DMF, a następnie użyliśmy tych wzorców przewidzieć SSNs rekordów DMF. W drugiej próbie, my interpolowane dane demograficzne pozyskane z uczniów profili na internetowych sieci społecznych, z wzorami wydobytych z DMF, i wykorzystał je do przewidywania właściciela profilu ‘SSNs. We zweryfikowana poprawność naszych prognoz z rzeczywistymi, indywidualne SSNs wykorzystaniem bezpiecznego, IRB-zatwierdzony, protokół anonimowy produkowane tylko statystyki zbiorcze, bez ujawniania nam rzeczywistą SSN każdego człowieka w szczególności.


Q. Jeśli algorytm tylko produkuje okna o wartości, które mogą zawierać poprawny numer Social Security, dlaczego jest to problem?

Ponieważ różne prywatnego i publicznego sektora usług online mogą zostać zaatakowane na badania (za pomocą brute-force weryfikacje) podzbiorów zmian przewidywanych przez algorytm.

Prognozy statystyczne okien możliwych SSNs nie oznacza, sam, że dokładna SSN będzie znaleźć. Jednak, gdy zakres wartości, w których SSN może spaść zostanie drastycznie zmniejszona, a liczbę “brute force” ataków, które w przeciwnym razie byłyby nieskuteczne lub niewykonalne stają się możliwe i wykonalne. Kiedy jedna lub dwie próby są wystarczające do identyfikacji dużej części wydane po raz pierwszy SSNs “pięciu cyfr, atakujący ma zachęty do inwestowania środków na zebranie pozostałych czterech z dokumentów publicznych lub usług komercyjnych. Po mniej niż 10, 100 lub 1000 próby są wystarczające do identyfikacji kompletne SSNs dla ogromnej ilości celów, atakujący może wykorzystać różne prywatnego i publicznego sektora usług online (np. online “błyskawicznych” miejsc zatwierdzania kredytów, jak omówiono w artykule ) do testowania podzbiory zmian przewidywanych przez algorytm w celu sprawdzenia, które SSN odpowiada osobnika z danego dnia urodzenia.

Q. Czy “złamane” jakiś tajny kod? Nie Social Security Administration publicznie ujawnia informacje na temat systemu przydziału?

Nie, nie mógł złamać tajny kod, i tak, schemat zadaniem jest publicznie dostępny. Program zadanie SSN powstała w 1930 roku i nie został zaprojektowany, aby być “bezpieczne”: wtedy, nie było sobie wyobrazić, że pewnego dnia SSNs rozpocznie wykorzystywane do uwierzytelniania. Program zadanie jest skomplikowane, że złożoność doprowadziło do przekonania, że ​​zadaniem, z punktu widzenia użytkownika, jest skutecznie random (patrz “ SSNs są przydzielane losowo przez komputer w granicach liczby strefy do danego państwa na podstawie danych kluczach do zmodernizowanego systemu Enumeration” [SSA, 2001]). Rzeczywiście, tylko używane publicznie dostępnych informacji, i skończyło się na odkryciu, na podstawie tych informacji, że losowość jest faktycznie tak niski, że całe 9 cyfr numeru SSN można przewidzieć, z ograniczoną liczbą prób. Również stwierdzono, że pewne interpretacje schematu przypisania znajdujące się poza SSA był w rzeczywistości błędne.


Q. nie to stare wieści jest? Każdy wie, że Numbers część wiąże się z państw (itp.)

Tak, system przydziału SSN jest dobrze znana, a tak, istnienie związku między cyframi okolicy i państw jest znane opinii publicznej – ale wzory odkryliśmy (i dokładność prognoz opartych na nich) nie są.

Jak zaznaczono w tekście, SSN schemat zadanie jest znane opinii publicznej (str. 1). W rzeczywistości, poprzednia praca w tym zakresie stosować te wzory, aby oszacować, kiedy i gdzie SSN może być wydane (p. 1 i [Wessmiller, 2002], [Sweeney, 2004], [EPIC, 2008], to znaczy począwszy od * znane * SSN i ​​próbuje wywnioskować stan i zakres roku, kiedy to może być wydane Zamiast tego nasza praca koncentruje się na odwrotną, trudniejsze i bardziej pośrednie wnioskowanie:. wykorzystanie wstępną dokładną datę i miejsce Stoczni Szczecińskiej emisja do oszacowania, dość solidnie, SSNs Stało się to możliwe, ponieważ.:

– Odkryliśmy (p. 3), że interpretacja posiadanych * poza * SSA, jak numery są przypisane okolicy było nieprawidłowe: w przeciwieństwie do powszechnie poglądem na temat ich pracy, sam jest używany do 9999 kolejno przypisane SSNs (w interpretacji programu przydziału odbyło poza SSA SSA wierzono, aby przechodzić przez wszystkie państwa w ANS dla każdego przypisanego SN. Taki schemat uczyniłoby random dla państw z wieloma ANS, a prognozy prezentujemy w tym artykule znacznie mniej dokładne ).

– Odkryliśmy (str. 4), że cesja 4 ostatnie cyfry nie jest tylko sekwencyjny (jak zresztą stwierdzono w publicznie dostępnych informacji o systemie przydziału), ale w rzeczywistości jest bardzo skorelowany z wnioskodawcy daty urodzenia, a zatem nie random (uwaga, że ​​SSA stwierdza natomiast, że SSNs “ są przydzielane losowo przez komputer w granicach liczby strefy przypisać do konkretnego stanu” [SSA, 2001]). W różnych przypadkach, byliśmy w stanie przewidzieć cały 9-cyfr na Szczecińskiej przy pierwszej próbie (szansa, że ​​to nastąpi w drodze losowego odgadnięcia są mniej więcej 1 na miliard). Jest to szczególnie widoczne w przypadku SSNs przypisanych po nadejściem EAB (1987 r.).

– Odkryliśmy, że analiza dostępnych publicznie SSNs przypisanych do zmarłych osób (i zawarte w DMF) pozwala na wnioskowanie o ziarnistych wzorach przypisania które sprawiają, że można przewidzieć SSNs jednostek żyje. Na przykład, w obszarze relacji pomiędzy liczbami i stanów, podczas publicznej wiadomości, nie byłoby wystarczające, sam, aby przewidzieć numery obszar z wyjątkiem bardzo szczególnych przypadkach (patrz str. 1).: Stany niskiego zaludnienia (takich jak WY) i pewna US dobytek przydzielono 1 każdy – co oznacza, że ​​wiedzą, że indywidualne zastosowanie do jego / jej Stoczni Szczecińskiej w tym państwie lub posiadanie rzeczywiście daje niemal pewną wiedzę z pierwszych 3 cyfr jego / jej Stocznią Szczecińską. Jednak inne kraje są alokowane * zestawy * ANS. Na przykład, osoba stosowania od kodu pocztowego w stanie Nowy Jork można przypisać jedną z 85 możliwych pierwszych 3 cyfr SSN. Dlatego też wiadomo, że indywidualne zastosowanie do jego / jej Stoczni Szczecińskiej w tym stanie zapewnia niskie kursy (1 na 85) z prawidłowo zgadywać jego / jej pierwsze 3 cyfry z jednym przypuszczeniem losowej. Te kursy nie obejmować nawet prawdopodobieństwo słusznie domyślając numerów grup – różniących się od 01 do 99, w połączeniu z różnymi numerami okolicy.

Krótko mówiąc, bez odkrycia wzorów łączących cyfry SSN do danych demograficznych, znajomość systemu przydziału nie wystarczy przewidzieć ani pierwszy 5 cyfr lub w rzeczywistości całe 9 cyfr numeru SSN z dokładnością niezbędną do narazić je do rzeczywistego ryzyka identyfikacji. Na przykład, prawdopodobieństwo prawidłowego zgadywania pierwsze 5 cyfr SSN osobnika urodzonego w Nowym Jorku w 1998 roku, nawet zakładając, wiedzę, że SSN zostało wydane w tym państwie, będzie 0,012%, a prawdopodobieństwo prawidłowo zgadywać całą 9 cyfry z mniej niż 1000 prób będzie 0,0012%. Jednakże, zgodnie z bardziej ziarnistej zrozumienia relacji między systemem przydziału i demograficznych wzorów opisanych w tekście, te prawdopodobieństwa są 30% i 3%: kilka rzędów wielkości większe i dużo bardziej podatne na ataki brute-force. Patrz tabela 6 na s.. 27 z niezbędnymi informacjami.

Q. Czy przewidywalność SSNs prowadzić do kradzieży tożsamości? Czy ta publikacja badanie zapewnia wszystko jest potrzebne do nabycia SSNs?

No Abstrahując od faktu, że poufne dane zostały usunięte z tego artykułu, aby przejść od zwykłych statystycznych prognoz do faktycznej kradzieży tożsamości atakująca musi wykorzystać luki i słabości amerykańskiej tożsamości “infrastruktury:” Powszechna dostępność, danych osobowych dla demograficznych miliony osób, istnienie dużych botnetów z zainfekowanych komputerów, a także łagodnym dopasowaniu tożsamości i technik uwierzytelniania przyjętych w kredytowych / sektorów finansowych (między innymi). Nasze odkrycia mogą pomóc walki i kradzieży tożsamości spadek pokazując, dlaczego takie znane (jeszcze niedoceniane) niedociągnięcia w naszej infrastruktury tożsamości powinny być ostatecznie rozwiązany; alarmując przemysłu i decydentów od nowego exploita, i podkreślając konieczność rezygnacji SSNs jak hasła i ruch w kierunku bardziej bezpiecznych, wydajny i zachowując prywatność uwierzytelnianie za pomocą tożsamości.


Pyt.: Jak to się różnić od poprzednich badań?

Poprzednie badania w dziedzinie SSNs koncentruje się na wykrywaniu SSNs w publicznych bazach danych przy użyciu SSNs powiązanie danych pomiędzy wieloma źródłami danych, lub – w przypadkach najbliżej naszego badania – wnioskowanie roku [s], a stan wydawania znanych SSNs. Per se istnienie wzorów SSN emisji jest dobrze znana – SSA sprawia pewne szczegóły dostępne poprzez publiczne materiałów, a inne (zwłaszcza, Latanya Sweeney i jej “SSN Watch”) wykorzystali te wzorce, a także połączenie Stoczni Szczecińskiej publicznego i prywatnego danych, aby oszacować, kiedy i gdzie SSN mogły zostać wydane [Wessmiller, 2002], [Sweeney, 2004], [EPIC, 2008]. Jednak nasza praca koncentruje się na odwrotną, trudniejsze i bardziej pośrednie wnioskowanie: to pokazuje, że możliwe jest wykorzystanie domniemany czas i miejsce wydania SSN do oszacowania, dość solidnie, SSNs .

Pytanie: Jakie dane są potrzebne do przewidzenia SSN? Czy nie jest dane urodzenie trudne do zdobycia?

Dane o SSNs z tak zwanego “głównego pliku śmierci”, które są publicznie dostępne, a dane demograficzne (daty urodzenia i stany urodzenia) z gdziekolwiek jest to możliwe. Masowe ilości danych urodzeń dla mieszkańców USA można uzyskać lub wywnioskować – często za darmo, lub w znikomym na cenach jednostkowych – z wielu źródeł, w tym danych handlowych brokerów (np. www.peoplefinders.com, która sprzedaje dostęp do danych biologicznych i osobistych Adresy “ prawie każdego dorosłego w Stanach Zjednoczonych”); listy rejestracji wyborców (w większości państw); forum wolnych ludzi wyszukiwania (takie jak www.zabasearch.com), jak również serwisy społecznościowe: Nasze szacunki wskazują, że w najmniej 10 milionów mieszkańców USA upublicznia lub wypływające informacje ich urodziny na swoich internetowych profilach.

Q. Z którego serwisu społecznościowego dowiedziałeś danych dla jednego z testów?

Nie ma określonej witryny sieci, która jest wyjątkowo narażona. Dane mogą być pozyskiwane z wielu takich miejsc, jak również z innych źródeł, jak wspomniano powyżej.

Q. Czy nie Stoczni Szczecińskiej w rzeczywistości jako dostępne jako dane urodzeń?

Nie są.

To prawda, że ​​SSNs są powszechnie dostępne. Zostały one znalezione w publicznych rejestrach urzędów federalnych, państw, powiatów, sądy, szpitale, i tak dalej [Prezydenta Identity Theft Task Force, 2007], a także w dokumentach osobistych, takich jak internetowe wznawia [Sweeney, 2006]. Firmy SSNs wymiany informacji w rynkach osobowych i jednostki uzyskać “ raportów kredytowych,” zawierające ich SSNs, z biura kredytowe; skradzione SSNs są lucratively wymieniane w podziemnych cybermarkets [Franklin, 2007]. Jednak GAO stwierdził, że tylko kilka brokerów oferujących SSNs do sprzedaży dla ogółu społeczeństwa są rzeczywiście w stanie sprzedać całe SSNs [GAO, 2006]. Co więcej, GAO stwierdził również, że podczas gdy nadal powszechne, SSNs są coraz trudniej znaleźć w ogólnodostępnych dokumentach [GAO, 2008]. W rzeczywistości, liczba SSNs powszechnie dostępnych może być również maleje z powodu licznych prawodawstwa w tej dziedzinie. W ostatnim czasie różne inicjatywy koncentrują się na usuwaniu SSNs z publicznej ekspozycji lub redacting pierwsze pięć cyfr [NCSL, 2007], [FTC, 2008] i [GAO, 2008]. Z drugiej strony, dane urodzeń nadal szeroko dostępne, jak opisano powyżej.


Q. Czy można dokładnie przewidzieć, * każdy SSN *?

Nie.

Każdy SSN jest wydawane w ramach samego systemu podstawowego przypisania (i program, natomiast kompleks, zawiera zaobserwowania prawidłowości). Stąd, w teorii, każdy SSN można przewidzieć. Jednak prawdopodobieństwo, że dana SSN można skutecznie przewidzieć waha się od bardzo niskich (lub zera) na bardzo wysokim poziomie, w zależności od czynników, takich jak rok i stan SSN została towarowych, jak blisko do indywidualnych danych urodzeń było stosowane dla , i tak dalej. Do badań biegaliśmy, nasze przewidywania były o kilka rzędów wielkości bardziej dokładne niż losowy przypadek nad 1973 przez 1988 lata, jednak dramatyczne i powszechny wzrost dokładności były szczególnie widoczne dla osób urodzonych po 1988 r. (początek ogólnopolskiego programu EAB) , w szczególności w krajach słabiej zaludnione.


Pyt. Ile rzeczywiste SSNs można przewidzieć?

Nie istnieje jedna liczba, która może odpowiedzieć na to pytanie. Liczba jest funkcją wielu parametrów, probabilistycznych i wnioski, w tym – jak wspomniano powyżej – dostępności danych urodzeń, dokładności przewidywań w różnych stanach i rok, dostępność narzędzi do sprawdzenia systemu, i tak dalej. Prezentujemy kilka możliwych ekstrapolacji na papierze, ale podkreślamy, że muszą być tak ważone i rozważyć pod zastrzeżeniami również prezentowanych tam.

Q. Zamieściłem moją datę urodzenia w Internecie. Czy moja SSN został “uszkodzony”?

Nie.

Ta wiedza nie jest wystarczająca do “kompromisu” SSN bez możliwości stara się znaleźć odpowiednią liczbę spośród możliwych wariantów – to znaczy, napastnicy nadal potrzebne do osiągnięcia sukcesu w wykorzystywaniu innych systemów zagrozić własnej tożsamości. Ponownie, przewidywania statystyczne okien możliwych SSNs nie oznacza, sam, kradzieży tożsamości. Prawdopodobieństwo, że probabilistyczne wnioskowanie może przełożyć się rzeczywistej identyfikacji SSN jest funkcją wielu parametrów. Niedokładny lub niedostępny informacje urodzenia, lub niezdolność napastnika do wykonania wielokrotnych prób, spowoduje zmniejszenie dokładności prognoz i liczby SSNs osób fizycznych na podstawie rzeczywistego zagrożenia w porównaniu z szacunkami DMF prezentujemy w artykule.


Q. Nie Czy naruszenia danych większym problemem?

Niekoniecznie – choć jest to pomarańcze vs rodzaju jabłka porównania.

Po pierwsze: nie wszystkie naruszenia danych obejmować SSNs. Szacunki oparte na danych attrition.org w chwili pisania wskazuje, że średnia naruszenie polega 140K rekordy SSN. Niemniej jednak, że średniej (jak większość z największych naruszeń że SSNs zaangażowane) obejmuje przypadkowych utraty danych, które nie mogły doprowadzić do rzeczywistej wartości informacyjnej, takie jak rekordy 26,5 US Veterans w “zapisane w laptopie skradzione podczas włamania w 2006 r. .

Po drugie, i co ważniejsze, w przeciwieństwie do łamania danych, które są lokalne zagrożenia (to znaczy specyficzne dla zapisów zawartych w określonym bazy danych, jednak duża, że ​​może być), przewidywalność obserwowaliśmy jest, w zasadzie, uniwersalny, w tym, że stosuje się teoretycznie (i różnym stopniem dokładności, w zależności od czynników wymienionych powyżej), do wszelkich SSNs obecnych i przyszłych – chyba że ich program cesja jest modyfikowany.

Po trzecie: Firmy mogą inwestować chronić swoje bazy danych, a zagrożone karty kredytowe mogą być zablokowane i odnowione. Jednak, w przeciwieństwie do tradycyjnych haseł, SSNs nie może być na czarnej liście, po nieudanych próbach, nie zmienił się w przyszłości uniknąć oszustw [SSA, 2009].

Po czwarte: dane naruszenie mogą być odkryte, a właściciele “z zaatakowanych kont może zostać powiadomiony o naruszeniu. Przewidywanie SSNs jest bardziej podobny do “ukrywania” sposób utraty tożsamości i może być trudniejsze do wykrycia.

Stąd przewidywalność SSNs jest kwestią, którą należy się zmierzyć z różnymi narzędziami, niż te stosowane w celu zapobiegania i radzenia sobie z naruszenia bezpieczeństwa danych.

Q. Czy to nie taniej po prostu zapłacić brokera danych do pobierania danych SSN?

Niestety (a może na szczęście), nie.

W szarej strefy (czyli bez rynku, na którym poświadczone i sprawdzone firmy handlowe danych osobowych), to staje się coraz trudniejsze do uzyskania SSNs [GAO, 2006] i niewspółmiernie drogi: zgodnie z [Krim, 2005]. SSNs sprzedawane są w szarych rynkach cenę około 35 dolarów do 45 dolarów. W czarnym rynku, zgodnie z [idanalytics, 2006], skradzione tożsamości w USA mogą być przedmiotem obrotu na czarnym rynku o wartości 30 dolarów do 50 dolarów za tożsamości. Jednak szacunki wartości SSNs w podziemnych rynkach znacznie się różnią (niektóre szacunki znacznie mniejsze niż 30 dolarów), z uwagi na względny brak płynności tych rynków [McCarty, 2003], [Thomas, 2006] (w zakresie od 0,10 dolarów do 25 dolarów (karty kredytowe ), a pełna tożsamość (zawierający SSNs) jak w zakresie od 0,90 dolarów do 25 dolarów [Herley, 2009]).

Z drugiej strony, dane niezbędne do urodzenie przepowiedni jest o wiele tańszy, a dostępność botnetów z zainfekowanych komputerów może dokonać poświadczenia zbioru dużych skalach dość łatwo (choć szacunki różnią, kontrolowanie 10.000 adresów IP na cały dzień może kosztować zaledwie 1000 dolarów [Lesk, 2007]).

Pytanie: Czy to nie jest tak, że SSNs, sam, nie są wystarczające, aby podszyć się pod osobę? Banki i inne usługi poprosić o dodatkowe informacje (np. imię matki panny, nazwa pet, i tak dalej).

W USA, znajomość czyjegoś nazwiska, daty urodzenia, i SSN jest czasami wystarczające do podszywania się pod tę osobę w różnych sytuacjach.

Musimy odróżnić aktualnej oszustwa konta (ktoś próbuje uzyskać dostęp do konta bankowego już utworzony) i nowego oszustwa konta (ktoś próbuje stworzyć nową kartę kredytową pod nazwą). Podczas gdy w “ rachunku bieżącym” oszustwa atakujący, aby uzyskać dostęp do konta już stworzył i własnością osoby, rzeczywiście nie tylko ofiary i nazwisko, data urodzenia i SSN, ale (najczęściej) także hasła lub potrzebuje dodatkowych dane osobowe, w “ nowe konto” oszustw, atakujący raczej tylko musi korzystać ofiary nazwisko, datę urodzenia, i SSN do tworzenia nowego konta na nazwisko ofiary. Dlatego nowe oszustwa konto może być dokonywane nawet bez wiedzy ofiary, numer telefonu, imię matki panny lub innych aktach osobowych. Montaż dowody empiryczne wskazują bowiem, że zapewnienie SSN i ​​datę urodzenia, które odpowiadają, że SSN jest wystarczająca do tworzenia nowych fałszywych kont [Cook, 2005], [Hoofnagle, 2007], [unijnych konsumentów, 2007], nawet gdy nazwa wiąże się z tym SSN nie pasuje, lub adres jest nie tak, a nawet – jak wspomniano powyżej – niektóre z przedstawionych cyfr SSN były błędne.

Poza tym, dodając więcej pytań uwierzytelnić osobę do konta jest prawie dobre zabezpieczenia, jeśli odpowiedzi na te pytania można jeszcze wywnioskować, czy zagrożona.


Q. Jeśli SSNs nie były już wykorzystywane do uwierzytelniania, co jeszcze możemy użyć?

Po prostu pyta więcej pytań osobistych (takich jak matki nazwisko panieńskie, imię zwierzęcia domowego lub swoim liceum) nie może pracować, ponieważ informacje te mogą być również zagrożona, skradzione lub – w tym wieku samoobjawieniu – wynika z różnych źródeł. Jednak wiele badań koncentruje się na systemach, które chronią dane wrażliwe, jednocześnie umożliwiając wymianę informacji: Praca na 2-czynników uwierzytelniania, certyfikatów cyfrowych i prywatności konserwujących systemów zarządzania tożsamością. Choć nie ma niezawodny układ, ani panaceum (jak Bruce Schneier zauważył, “Proponowane poprawki koncentrują się na […] co dane osobowe trudniej ukraść – podczas gdy prawdziwym problemem jest […] zapobieganie i wykrywanie nieuczciwych transakcji “[Schneier, 2007]), badania w tej dziedzinie poczyniła znaczne postępy w ostatnich latach, i mamy nadzieję, że debata będzie koncentrować się na systemach, które łączą w sobie prywatność niezbędną i skuteczny przepływ informacji.


P. Kto finansowane swoje badania?

National Science Foundation (pod Grant 0713361) i US Army Biuro ds. Badań Naukowych (w ramach umowy DAAD190210389 poprzez CyLab Carnegie Mellon). Otrzymaliśmy także wsparcie z Carnegie Mellon Berkman Funduszu i Pittsburgh Supercomputing.

Q. Gdyby IRB testy zatwierdzony?

Tak, zostały zatwierdzone. Brak SSNs zostały skrzywdzone podczas pisania tego artykułu.