Apple ma problem ze swoją AI. Gigant będzie potrzebował setek milionów dolarów

Apple chce automatycznie przetwarzać dane z dużych i popularnych stron internetowych, by szkolić swoją sztuczną inteligencję. Problem w tym, że właściciele stron wiedzą już, jak blokować dostęp do swoich danych i oczekują opłat za usuwanie takiej blokady. Dochodzi do sytuacji, w której AI trenowana jest coraz częściej na danych wygenerowanych de facto przez tę samą lub podobną AI, ale kilka miesięcy wcześniej i opublikowanych na niszowych blogach wątpliwej jakości.

Tego lata Apple udostępniło dla właścicieli stron internetowych odpowiednie informacje na temat swojego bota do przetwarzania i pobierania danych z sieci. Dzięki temu zyskali oni większą kontrolę nad tym, czy producent iPhone’a może trenować swoje modele AI na ich danych. Główne wydawnictwa i duże biznesy, takie jak Facebook czy The New York Times, szybko zablokowały dostęp do swoich treści.

Apple wprowadziło narzędzie umożliwiające rezygnację z trenowania AI po cichu i już parę miesięcy temu. Wiele znanych serwisów informacyjnych i platform społecznościowych skorzystało z tej opcji, blokując dostęp sztucznej inteligencji giganta.

Wydawcy tacy jak Condé Nast, Vox Media, The Atlantic, The Financial Times, The New York Times czy USA Today, a także platformy Facebook, Instagram, Craigslist czy Tumblr już zablokowały dostęp do danych. Takie chłodne przyjęcie nie jest jednak niczym sensacyjnym. Firmy zdały sobie sprawę, że wartość danych w dobie AI wyraźnie wzrosła. Roboty internetowe, które przeszukują sieć od dekad, by np. indeksować treści w wyszukiwarkach, były często kojarzone z czymś pozytywnym — nasze treści mogły trafić do wyszukiwarki, a użytkownicy wyszukiwarek mogli trafić potem na nasze strony.

Obecnie podobne roboty internetowe wykorzystują modele AI. Te jednak zaciągają dane do trenowania własnych algorytmów, by następnie np. generować teksty na podstawie artykułów dziennikarskich, chronionych prawem autorskim. Albo odpowiadają na konkretne zapytania bezpośrednio w swoich oknach, bez przekierowywania użytkownika na daną stronę. W praktyce współpraca stron z AI jest często jednostronna i korzyści czerpie tylko AI.

Od miesięcy toczy się konflikt o własność intelektualną i przyszłość internetu. Na razie nie ma jeszcze jasnego rozstrzygnięcia, niemniej właściciele poszczególnych serwisów wzięli sprawy w swoje ręce.

Czytaj też: Sztuczna inteligencja zaczyna mieć poważny problem. Twórcy narzędzi AI nie chcą mówić o tym głośno

Applebot-Extended to rozszerzony bot przeszukujący internet udostępniony przez Apple’a. Jest narzędziem, które pozwala właścicielom stron na przekazanie komunikatu do technologii giganta, aby nie używała ich danych do trenowania sztucznej inteligencji. Apple określa swoje podejście „kontrolowanym wykorzystaniem danych”, ale firmie nieszczególnie zależy, aby dużo osób dowiedziało się o istnieniu tego rozwiązania.

Oryginalny Applebot wystartował w 2015 r. Początkowo przeszukiwał internet po to, aby zasilać usługi wyszukiwania Apple, jak również przeglądarkę Safari. Teraz jednak zbiera dane, które mogą być używane także do trenowania algorytmów AI.

Producent MacBooków tłumaczy, że bot w wersji Extended nadal przeszukuje i indeksuje strony internetowe, aby mogły one pojawiać się np. w wynikach wyszukiwania na platformach Apple’a. Po prostu wydawcy decydują teraz, czy ich dane mogą jeszcze dodatkowo służyć do trenowania sztucznej inteligencji, czy nie.

Jeśli właściciel strony internetowej chce zablokować bota Apple’a, może to zrobić poprzez aktualizację pliku tekstowego na swojej stronie internetowej, znanego jako robots.txt, czy też Protokół Wykluczenia Botów. Jak pisaliśmy już na Business Insiderze, wielu wydawców zaktualizowało już swoje pliki robots.txt, aby zablokować dostęp do danych botom od OpenAI, Anthropic, Perplexity i innych spółek rozwijających generatywne AI. Teraz można łatwo dodać również bota Apple’a do tej listy.

Warto zauważyć, że nie ma żadnych oficjalnych przepisów regulujących to, jak firmy mają podchodzić do przestrzegania zasad z pliku robots.txt. To rynkowy i respektowany standard, niemniej w dużej mierze działa on na zasadach dżentelmeńskiej umowy. Są też przypadki, kiedy właściciel AI nie zastosował się do zasad z robots.txt. Dla przykładu Perplexity szkoliło swoje algorytmy na danych ze stron, które wyraźnie zakazywały do nich dostępu poprzez robots.txt.

Sprawdź też: Włochy blokują ChatGPT. Nielegalnie zbiera dane osobowe

Na razie liczba stron blokujących bota Apple’a nie jest zbyt duża, ale stale rośnie. Z danych firmy Originality AI, która przeanalizowała 1000 stron o dużym ruchu, wynika, że ok. 7 proc. z nich blokuje dostęp do danych technologii Apple’a. Najczęściej są to serwisy informacyjne. Większość właścicieli stron internetowych ciągle nie wie, że wprowadzenie tego typu blokady jest w ogóle możliwe.

Co ciekawe, ok. 50 proc. stron informacyjnych blokuje już bota OpenAI (ChatGPT), a ok. 40 proc. robi to w przypadku bota Google’a do trenowania sztucznej inteligencji Gemini.

Firmy rozwijające sztuczną inteligencją coraz częściej zdają sobie sprawę, że nie mogą tak po prostu bezpłatnie szkolić swoich algorytmów na treściach chronionych prawem autorskim. Fakt, że dana treść jest oferowana w internecie za darmo, nie oznacza, że można ją też za darmo pobierać i wykorzystywać do własnych celów.

Z tego powodu OpenAI i inne spółki rozwijające sztuczną inteligencję nawiązują partnerstwa z wydawcami, płacąc często od kilku do kilkudziesięciu milionów dolarów rocznie za dostęp do treści i możliwość wykorzystywania ich na potrzeby treningowe. Wielu wydawców stosuje proste podejście: blokuje dostęp do botów i usuwa go dopiero wtedy, gdy dostawca AI nawiąże umowę partnerską i zacznie płacić za treści.

Nie tylko Apple czy OpenAI przeszukują strony internetowe swoimi botami, by gromadzić dane do trenowania AI. Takich firm jest coraz więcej, a właściciele stron mają często problem, aby za tym wszystkim nadążyć. Z tego powodu powstają serwisy takie jak Dark Visitors, aktualizujące listę botów AI, które można blokować — mają nawet odpowiednią usługę automatycznego aktualizowania plików robots.txt. Dark Visitors ma bardzo rozbudowaną listę botów AI i wygląda na to, że jest ich już kilkaset, z czego większość nie jest blokowana, bo właściciele stron nie wiedzą nawet o ich istnieniu.

Obecnie AI trenowana jest też coraz częściej na treściach generowanych… przez AI. Poniekąd więc zjada samą siebie. Jeśli coraz więcej stron będzie wiedziało, że może blokować boty AI, dostawcy sztucznej inteligencji albo zaczną nawiązywać kolejne partnerstwa i znacznie wzrosną ich koszty, albo jakość algorytmów AI zacznie spadać.

Autor: Grzegorz Kubera, dziennikarz Business Insider Polska

Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Bądź na bieżąco! Obserwuj nas w Wiadomościach Google.

Źródło

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Nazwa *

Adres e-mail *

Dodaj komentarz *

No votes yet.

Please wait...

Dodaj komentarzAnuluj odpowiedź