Cloudflare broni wolnego internetu. Nie zgadza się, aby modele AI kradły dane

Cloudflare ujawniło, że blokowanie botów wykorzystywanych do szkolenia modeli językowych będzie teraz standardową funkcją dla wszystkich jego klientów. Dotyczy to w szczególności około 20 procent globalnego ruchu internetowego, ponieważ znaczna liczba witryn korzysta z rozwiązań giganta, a ruch internetowy przechodzi przez jego sieć. Inną nowo wprowadzoną funkcją jest mechanizm Pay Per Crawl, który pozwala właścicielom witryn nakładać opłatę za każde skanowanie treści przez sztuczną inteligencję. Firma twierdzi, że bez takiej „bramki płatności” modele AI będą pobierać wysokiej jakości dane i treści bez żadnego udziału właścicieli witryn. Ta sytuacja ma się zmienić.

9482924db24337dc580f5c092108461f, Biznes Fakty — Dyrektor generalny Cloudflare Matthew Prince wspiera wydawców w walce z algorytmami AI, które przywłaszczają sobie ich treści | Zdjęcie: Patrick T. Fallon/AFP / East News

Cloudflare promuje twórców treści i wolny internet, czyniąc blokowanie botów AI domyślną funkcją
Omawiamy, w jaki sposób nowy model Pay Per Crawl może zapewnić wydawcom kontrolę i źródło przychodów w obliczu gigantów AI
W obliczu gwałtownego wzrostu sztucznej inteligencji generatywnej istnieją również poważne zagrożenia dla modelu wolnego internetu i reklamy
Konflikt dotyczy monetyzacji wiedzy i zapewnienia dostępu do niej wszystkim
Więcej informacji o biznesie znajdziesz na Businessinsider.com.pl

Z technicznego punktu widzenia Cloudflare wykorzystuje wyrafinowaną heurystykę i uczenie maszynowe, aby odróżnić generatywnych agentów AI od konwencjonalnych wyszukiwarek lub archiwistów. W 2024 r. uruchomiono przycisk blokowania niektórych robotów indeksujących, który od tego czasu został aktywowany przez ponad milion klientów. Teraz ta ochrona jest trwale włączona, a użytkownicy mogą dodawać wyjątki tylko wtedy, gdy chcą udostępniać dane określonym partnerom biznesowym.

Matthew Prince, CEO Cloudflare, ostrzegł podczas konferencji, że wydawcy osiągnęli krytyczny moment: algorytmy AI coraz częściej dostarczają odpowiedzi bez kierowania czytelników do oryginalnych źródeł , podczas gdy roboty indeksujące pobierają znacznie więcej stron w tle, niż zwracają jako kliknięcia. W ciągu ostatnich sześciu miesięcy współczynnik „pobrania-polecenia” z Google spadł z 6:1 do 18:1, a w przypadku OpenAI gwałtownie wzrósł do 1500:1. Mówiąc inaczej, OpenAI odsyła średnio jednego użytkownika na każde 1500 pobrań danych z określonej witryny. Przy takich współczynnikach monetyzacja treści przy użyciu powszechnego modelu wyświetlania reklam staje się trudna.

Sprawdź także: Wikipedia na skraju przeciążenia. Boty AI mogą zagrozić naszemu swobodnemu dostępowi do wiedzy

Wydawcy otrzymują solidne wsparcie

Dla wydawców jest to przede wszystkim okazja do odzyskania kontroli i ustanowienia nowego kanału przychodów. Pay Per Crawl jest obecnie testowany przez Time, Condé Nast i Associated Press , między innymi. System jest zaprojektowany tak, aby działał prosto — wydawcy ustalają stawkę lub całkowicie odmawiają dostępu, a firma AI musi zdecydować, czy zapłacić, czy też szukać danych z alternatywnych źródeł.

Cloudflare jest częścią szerszego trendu twórców treści poruszających się między działaniami prawnymi a licencjonowaniem . The New York Times pozywa OpenAI i Microsoft za poważne naruszenia praw autorskich, ale w maju sfinalizował również swoją pierwszą umowę licencyjną z Amazon na Alexę i modele AI Amazon. Axel Springer i News Corp. zawarły podobne umowy z OpenAI.

Nie ma pewności, że bariery techniczne Cloudflare będą nieprzekraczalne. Niektóre scrapery już ignorują pliki kontrolujące boty, takie jak robots.txt, a cyberprzestępcy mogą podszywać się pod prawowitych użytkowników, aby zautomatyzować kradzież treści. Może to doprowadzić do intensywnej rywalizacji: coraz bardziej wyrafinowane boty kontra coraz bardziej inwazyjne analizy aktywności serwera . Ten scenariusz nieuchronnie budzi obawy dotyczące prywatności i potencjalnych fałszywych wyników pozytywnych.

Przeczytaj także: Ochrona przed komputerami kwantowymi będzie trudna. Ataki AI są stosunkowo łatwe w porównaniu

Stawka wynosi miliardy dolarów

Z punktu widzenia reklamy stawki są znaczne. Analiza przeprowadzona przez Press Gazette wskazuje, że obecność AI Overview w wynikach wyszukiwania Google zmniejsza współczynnik klikalności wyników Mail Online nawet o 56 procent . Ten drenaż ruchu sprawia, że bezpłatne treści finansowane przez reklamy banerowe stają się coraz bardziej niewykonalne.

Jeśli ten trend się utrzyma, wydawcy mogą szeroko przyjąć paywalle, mikropłatności lub hybrydowe licencje API. Jednocześnie platformy AI będą badać modele podziału przychodów, od wyświetlania linków sponsorowanych po osadzanie reklam kontekstowych bezpośrednio w strumieniu odpowiedzi. Istnieje jednak ryzyko, że mniejsi twórcy, którzy historycznie zarabiali na życie dzięki reklamom w długim ogonie wyszukiwań, mogą znaleźć się na marginesie w tym ekosystemie . Z jednej strony prawdopodobnie zobaczą spadek poleceń z wyszukiwarek i LLM, a z drugiej strony mogą nie mieć wystarczająco dużej publiczności, aby czerpać zyski z płatnych treści.

Cloudflare utrzymuje, że stworzyło infrastrukturę „kija i marchewki”. Zapora uniemożliwia darmowe scrapowanie, a rynek zakupu danych się wyłonił. Ale czy to wystarczy, aby zachować model biznesowy oparty na otwartym dostępie i reklamie? Obecnie wydawcy przyjmują decyzję z ulgą, podczas gdy firmy AI milczą lub sugerują selektywne licencjonowanie.

Przyszłość wolnego internetu zależy od tego, czy uda się osiągnąć równowagę między dostępem do wiedzy a uczciwym wynagrodzeniem dla jej twórców . Jeśli tej równowagi nie uda się osiągnąć, internet może szybko przekształcić się w jeden wielki płatny mur.

Źródło