Przekleństwo internautów – CAPTCHA - Antares - 20 lipca 2014

Przekleństwo internautów – CAPTCHA

Czy kiedykolwiek zdarzało Wam się w pośpiechu kilkukrotnie próbować rozszyfrować irytującą łamigłówkę, dzielącą Was od zrobienia czegoś w sieci? Obrazki CAPTCHA są dziś codziennością internetu, który walczy z zalewającymi go botami. Nie wszyscy wiedzą jednak skąd się wzięły i dlaczego czasami rozwiązanie zawierające małe słodkie kotki, będące najbardziej przyjaznym dla człowieka, może być zarazem najskuteczniejszą obroną przed botem. Wszystko to, a nawet więcej, znajdziecie w poniższym wpisie.

Zimą zeszłego roku szacowano, że boty mogą generować aż ponad 60% całego ruchu w internecie. Złośliwe programy wysyłają spam, nie tylko zakładają konta na skrzynkach pocztowych czy serwisach internetowych, lecz potrafią nawet komentować artykuły, brać udział w dyskusjach na forach czy. Znajdziemy je także na portalach społecznościowych. By się przed nimi ustrzec, wymyślono specjalny test, który ma pozwolić ocenić serwerowi z którym się łączymy, że ma do czynienia z człowiekiem, a nie botem.

Pierwsza łamigłówka, której nadano nazwę CAPTCHA została wymyślona w 2000 roku na Carnegie Mellon University przez Luisa von Ahna, Manuela Bluma, Nicholasa Hoppera i Johna Langforda. Termin ten to akronim pochodzący od angielskiego słowa „caputure” oznaczającego „łapać” , a jego pełne rozwinięcie brzmi „Completely Automated Public Turing test to tell Computers and Humans Apart”, co można przetłumaczyć na "całkowicie zautomatyzowany publiczny test Turinga, służący do rozróżnienia ludzi i komputerów". Nazwa ta jednak jest odrobinę myląca, ponieważ w rzeczywistości obrazkowe łamigłówki stanowią dokładną odwrotność tego testu.

Brytyjski matematyk Alan Turing wymyślił bowiem badanie pozwalające ocenić zdolności komputera do posługiwania się językiem naturalnym. Test ten zakłada, że oceniającym jest człowiek, który po przeprowadzeniu pisemnej rozmowy z dwiema stronami, gdzie jest komputerem, musi wskazać kto z nich jest maszyną. Jeśli nie potrafi, lub robi to błędnie, test zostaje przez komputer zdany. W przypadku CAPTCHA mamy do czynienia z sytuacją dokładnie odwrotną – to maszyna ocenia czy jesteśmy botem czy człowiekiem, na podstawie tego, czy poradziliśmy sobie z zadaną nam łamigłówką.

CAPTCHA ewoluowało przez lata, stając się coraz bardziej zaawansowane, by sprostać coraz sprytniejszym botom. Na początku po prostu zniekształcano litery i cyfry, jednocześnie zaszumiając znajdujące się za nimi tło. Programy zaczęły sobie jednak bardzo szybko radzić z takimi łamigłówkami, podczas gdy one same stały się coraz bardziej uciążliwe dla ludzi. Do historii przeszła natomiast CAPTCHA stosowana przez Microsoft, stając się koszmarem użytkowników specjalnej wersji aplikacji Windows Live Messenger, wydanej w 2008 roku na Facebooku. Łamigłówka obrazkowa pojawiała się bowiem przed rozpoczęciem każdej konwersacji. Złą sławą okryły się też łamigłówki z serwisu Rapidshare.com, wymagające od użytkownika podania za którymi literami kryją się koty. Nieczytelność tego CAPTCHA była bardzo wysoka i wywoływała u internautów potworną frustrację.

Co ciekawe, najprzyjemniejsze dla człowieka i zarazem najtrudniejsze do rozgryzienia dla botów są łamigłówki oparte na zdjęciach lub rysunkach. Takim rozwiązaniem jest choćby Yello CAPTCHA, wymagające od danej osoby wybranie z zestawu dwóch obrazków, opartych na konkretnym, zadanym skojarzeniu. Dla botów, które nie potrafią myśleć abstrakcyjnie, jest to zadanie niewykonalne. Podobnie działa także ASIRRA, czyli „Animal Species Image Recognition for Restricting Access” (w wolnym tłumaczeniu „rozpoznawanie obrazów gatunków zwierząt dla ograniczenia dostępu”) wymagająca od użytkownika by z zestawu zdjęć zwierząt wybrał te, które przedstawiają koty. Proste i skuteczne.


ReCAPTCHA na pomoc nauce

Nie najskuteczniejsza, ale najciekawsza jest natomiast ReCAPTCHA wymyślona przez Luisa von Ahna, czyli jednego z autorów pierwszych łamigłówek mających odzielać ludzi od botów. Jest ona bowiem wykorzystywana przez Google w projekcie mającym na celu skopiować do wersji cyfrowej wszystkie, kiedykolwiek napisane przez człowieka książki. Wydano ich ponad 129 milionów, a gigantowi z Mountain View udało się już przeskanować aż 20% z nich. Większość procesu dokonywana jest automatycznie, jednak zdarzają się przypadki, gdy tekst jest tak nieczytelny, że maszyna nie jest w stanie go zinterpretować. Czemu by więc nie wykorzystać pomocy Internautów, którzy są już i tak wyćwiczeni w obrazkowych łamigłówkach? Na tej właśnie idei opiera się właśnie ReCAPTCHA, która podaje zawsze do odszyfrowania dwa słowa – pierwszy to klasyczna CAPTCHA cyfrowo-literowa, zaś drugie pochodzi z jakiegoś kłopotliwego fragmentu książki. Słowo to pojawia się losowo określoną ilość razy w testach ReCAPTCHA rozsianych w różnych miejscach sieci. Gdy pewna liczba internautów interpretuje je identycznie, system odnotowuje to jako potencjalnie dobre odszyfrowanie niewyraźnego zapisu. W ten sposób, codziennie internauci zgadują blisko 30 milionów niewyraźnych słów, co daje liczbę około 160 książek zmienionych w e-booki.

Metoda działania ReCAPTCHA zemściła się jednak na Google’u, gdy za pomocą tego zabezpieczenia chroniono w swoim czasie głosowanie na najbardziej wpływową osobę na świecie, prowadzone przez tygodnik TIME. Użytkownicy słynnego forum internetowego 4chan.org postanowili zrobić wielki dowcip, masowo głosując na różnych przypadkowych ludzi, w tym na moota, czyli twórcę 4chana. Z ReCAPTCHA rozprawili się za pomocą specjalnego oprogramowania, które potrafiło zazwyczaj trafnie odczytać pierwsze ze słów, w miejscu drugiego podając zawsze słowo „penis”. Można więc sobie wyobrazić, co działo się potem w archiwach Google’a… Warto przy okazji zaznaczyć, że konstrukcja łamigłówki pozwala na przepuszczenie internauty dalej już w momencie, gdy poda jedno ze słów dlatego, że system i tak nie zweryfikuje poprawności drugiego. Co ciekawe, dziś w ReCAPTCHA pojawiają się również zdjęcia różnorakich tabliczek z adresami i numerami ulic – w ten sposób Google wspiera swój kartograficzny Google Maps, dzięki czemu precyzyjniej może określić gdzie znajdują się dane adresy, sfilmowane podczas przejażdżek samochodem Google Drive.

Na koniec wspomnę jeszcze o botach. Okazuje się bowiem, że w dobie taniego outsourcingu, najskuteczniejszą metodą na wysyłanie spamu i łamanie CAPTCHA nie są specjalne programy, lecz tania siła robocza z Chin czy Indii. W ten sposób nawet najlepsze, oparte na skojarzeniach łamigłówki są codziennie łamane setki tysięcy razy, zaś my jesteśmy zalewani w sieci niechcianymi treściami. I to jest niestety coś, z czym nie poradzi sobie najbardziej zagmatwany obrazek.

Antares
20 lipca 2014 - 13:05