Cloudflare pozwala AI wejść do „labiryntu”: ochrona treści skuteczniejsza niż prawa autorskie i sądy

Cloudflare buduje skomplikowany labirynt dla botów AI. To innowacyjne podejście ma na celu ochronę materiałów chronionych prawem autorskim w erze generatywnej AI. Musisz przyznać: to sprytne rozwiązanie. Wyjaśniamy, jak działa ten nowy mechanizm i kto na nim zyska.

A1adf93454a5f33a658d16debfead6e0, Biznes Fakty — Labirynt AI łapie boty AI w labiryncie fałszywych, nieprzydatnych treści (obraz podglądu) | Zdjęcie: Mazur Travel / Shutterstock

Cloudflare stworzył AI Labyrinth, system, który wabi boty AI do labiryntu fałszywych, nieprzydatnych treści
Zamiast blokować dostęp, nowa technologia wprowadza boty w zakłopotanie, utrudniając im trenowanie modeli na autentycznych danych
AI Labyrinth wykrywa podejrzane skrypty i pomaga w opracowaniu mechanizmów obronnych, które chronią cały ekosystem treści
Dzięki temu narzędziu nawet mniejszym wydawcom można chronić swoje dzieła przed nieautoryzowanym powielaniem
Dodatkowe informacje o biznesie znajdziesz na Businessinsider.com.pl

Cloudflare, firma znana z rozwiązań chroniących strony internetowe przed cyberzagrożeniami i przeciążeniami serwerów, wprowadziła nowe narzędzie. Tym razem jest to coś, co może zrewolucjonizować sposób, w jaki zwalczamy nieautoryzowane pozyskiwanie treści przez boty AI.

System nazywa się AI Labyrinth i nie blokuje automatycznych skryptów, jak robiły to poprzednie zabezpieczenia. Zamiast tego kieruje je głębiej w misternie zaprojektowany labirynt — wypełniony pozornie wartościową, ale całkowicie bezwartościową treścią.

Ta innowacja jest odpowiedzią na narastające zagrożenie, z którym obecnie mierzą się liczni twórcy treści, organizacje medialne i właściciele stron internetowych – masowe i nielegalne zbieranie danych przez boty oparte na sztucznej inteligencji.

Firmy, które zajmują się modelowaniem języka, takie jak ChatGPT, Gemini i Claude, potrzebują ogromnych ilości tekstu do trenowania swoich systemów i coraz częściej robią to bez uzyskania pozwolenia , ignorując pliki robots.txt i inne środki ochronne.

Sprawdź także: To zmienia zasady gry. Nie musisz być programistą, aby tworzyć aplikacje i strony internetowe

Poprzednia metoda jest przestarzała

Przez wiele lat plik robots.txt, w którym właściciele witryn mogli wskazać, że nie chcą, aby ich treści były indeksowane przez określone źródło (np. roboty wyszukiwarek), był uważany za wystarczające narzędzie kontroli dostępu.

Jednak w dziedzinie generatywnej AI przestało być skuteczne . Coraz częściej firmy AI po prostu je ignorują i stosują obejścia. Jeśli nie chcesz, aby bot AI uczył się z twoich nieopłaconych i niezatwierdzonych treści, a blokujesz dostęp w pliku robots.txt? To tak, jakby umieścić zamknięte drzwi na środku otwartego pola — podczas gdy drzwi są nieprzekraczalne, obejście ich jest łatwe.

Dla właścicieli treści, w tym wydawców i blogerów, ta sytuacja jest irytująca. Zanim zdążą odpowiedzieć, ich teksty są już powielane i „trawione” przez model AI. Jednocześnie, z prawnego punktu widzenia, jest to strata, którą trudno udowodnić i cofnąć, ponieważ nawet jeśli sprawa trafi do sądu i zakończy się korzystnym wyrokiem, dane pozostają w systemie — algorytmy je włączyły i nie można ich później „zapomnieć”.

Uznając skalę problemu — według ich danych boty AI generują ponad 50 miliardów zapytań dziennie, co stanowi prawie 1% całego ruchu w ich infrastrukturze — Cloudflare zdecydowało się na inną strategię.

Przeczytaj także: Jedno zdjęcie wystarczy, by stworzyć film: stabilność sztucznej inteligencji zmienia zasady w świecie wideo

Inteligentne zarządzanie botami

Zamiast po prostu blokować treści, Cloudflare zdecydowało się przyjąć proaktywną strategię . AI Labyrinth składa się ze zbioru specjalnie stworzonych stron, które przypominają standardowe strony internetowe. Zawierają one tekst, który wydaje się wiarygodny — opisy procesów biologicznych, koncepcje fizyczne, neutralne dane naukowe. Choć realistyczne, są one całkowicie niezwiązane z tematem strony, którą boty próbują odtworzyć.

W rezultacie, gdy bot AI ląduje na takiej stronie, zaczyna pobierać dane, które są nieskuteczne z punktu widzenia szkolenia AI. Ponadto strony są połączone linkami, które prowadzą dalej i dalej — podobnie jak tradycyjny labirynt . Działa to nie tylko jako pułapka na dane, ale także jako drenaż zasobów — bot zużywa energię, moc obliczeniową i przepustowość, analizując informacje, które nie wnoszą nic do jego postępu.

Ta strategia działa jak współczesny honeypot, mechanizm, który był wykorzystywany od lat do identyfikowania i badania niechcianych działań online. Tradycyjne honeypoty składają się z ukrytych linków lub zasobów, które nie są widoczne dla przeciętnego użytkownika, ale „kuszą” boty. Wyzwaniem jest to, że współczesne boty nauczyły się je identyfikować i unikać. AI Labyrinth rozwija się dalej — nie zaciemnia treści, ale zamiast tego generuje materiały wprowadzające w błąd, tworząc iluzję prawdziwego zasobu.

Cloudflare zadbało również o to, aby te fikcyjne witryny nie były indeksowane przez wyszukiwarki i nie zakłócały doświadczeń prawdziwych użytkowników. Linki do nich są niezauważalne dla ludzi, a dostęp do labiryntu jest dostępny wyłącznie dla maszyn wykazujących podejrzane zachowanie.

Cechą wyróżniającą AI Labyrinth jest to, że system

Źródło