Biznes Fakty
Wikipedia na skraju przeciążenia: boty AI mogą odebrać nam swobodny dostęp do wiedzy
Rozwój botów sztucznej inteligencji coraz bardziej obciąża zasoby serwerowe Wikipedii. Sytuacja ta powoduje znaczny wzrost kosztów związanych z utrzymaniem ogólnej infrastruktury i stwarza poważne ryzyko ograniczenia dostępu do treści. Fundacja Wikimedia wskazała, że problem ten narasta. Znalezienie skutecznego rozwiązania w celu jego zwalczania również okazuje się wyzwaniem.

- Pobieranie danych na dużą skalę przez boty oparte na sztucznej inteligencji ma ogromny wpływ na infrastrukturę Wikipedii i podnosi koszty
- Wikimedia ostrzega, że ruch botów stanowi aż 65 procent najbardziej zasobochłonnych zapytań
- Istniejące środki bezpieczeństwa i strategie optymalizacji są nieskuteczne w walce z niekontrolowanym ruchem botów
- Brak współpracy i wsparcia finansowego ze strony firm zajmujących się sztuczną inteligencją może skutkować ograniczonym dostępem do darmowej wiedzy online
- Dodatkowe informacje dotyczące biznesu można znaleźć na stronie Businessinsider.com.pl
Wolumen zautomatyzowanych pobrań danych wykonywanych przez różne boty, które są zaprojektowane do obsługi modeli językowych (LLM), wzrósł o 50% w ostatnich miesiącach w odniesieniu do zużycia pasma — szczególnie w przypadku pobierania treści multimedialnych. Według Wikimedia Foundation trend ten przyspieszył od stycznia 2024 r. i wpływa nie tylko na Wikipedię, ale także na platformy takie jak Wikimedia Commons, która hostuje około 144 milionów plików na otwartych licencjach.
Przez wiele lat zasoby z Wikipedii i jej powiązanych projektów były wykorzystywane w licznych aplikacjach komercyjnych i środowiskach akademickich, ale dopiero od początku 2024 r. firmy AI szybko zaczęły szeroko wykorzystywać tę treść . Stosują szereg technik, od standardowego indeksowania stron po specjalistyczne interfejsy API i masowe pobieranie całych kolekcji.
Wikimedia twierdzi, że ogromne zapotrzebowanie na świeże dane dla modeli AI pociąga za sobą znaczne obciążenia techniczne i finansowe. Organizacja podkreśla, że brakuje jej odpowiedniego wsparcia, zarówno pod względem finansowania, jak i właściwego przypisania materiałów, do których uzyskano dostęp.
Sprawdź także: ChatGPT wprowadza nową funkcję do generowania i edytowania grafiki. Zaskakujące wyniki
Wikipedia intensywnie wykorzystywana przez boty AI
Z punktu widzenia wolontariuszy i inżynierów fundacji zakłócenia spowodowane tym ruchem najlepiej ilustruje incydent związany ze śmiercią byłego prezydenta USA Jimmy'ego Cartera w grudniu 2024 r. W tym czasie artykuł o nim doświadczył bezprecedensowego wzrostu liczby wyświetleń, czego można było się spodziewać. Jednak główny problem pojawił się, gdy miliony użytkowników jednocześnie zaczęło oglądać 1,5-godzinny film z debaty z 1980 r ., umieszczony na Wikimedia Commons.
Ruch sieciowy podwoił się w tym momencie i niemal „zatkał” kilka połączeń internetowych. Chociaż inżynierowie szybko przekierowali ruch, aby złagodzić przeciążenie, odkryli, że część pasma była od dawna zmonopolizowana przez boty zajmujące się masowym pobieraniem archiwum multimediów.
Ten problem jest rozpoznawany w innych inicjatywach wolnego i otwartego oprogramowania. Na przykład Fedora kiedyś zablokowała cały ruch z Brazylii, gdy niekontrolowane skrypty doprowadziły do podobnych wyzwań, GNOME wdrożyło strategię proof-of-work na swojej platformie GitLab, a Read the Docs zdołało obniżyć swoje wydatki na przepustowość, ograniczając nadmierny ruch AI.
Wikimedia stwierdza, że nawet buforowanie (tymczasowe przechowywanie danych w celu zwiększenia szybkości ładowania i zmniejszenia obciążenia serwera) nie rozwiązuje problemu, ponieważ przeciętny użytkownik koncentruje się głównie na popularnych stronach. Natomiast boty pobierają masowo niemal całą encyklopedię , w tym materiały, do których dostęp jest najmniejszy. Zasadniczo przechwytują wszystko, co jest dostępne.
Dane fundacji wskazują, że boty obecnie stanowią 65% najbardziej zasobochłonnych (a zatem kosztownych) zapytań, mimo że odpowiadają za zaledwie 35% wszystkich wyświetleń stron . Z punktu widzenia inżynierii sugeruje to, że takie zapytania są znacznie bardziej wymagające dla serwerów w porównaniu z ruchem ludzkim, a niektóre roboty ignorują protokoły robots.txt lub próbują podszywać się pod zwykłych użytkowników, używając fałszywych identyfikatorów przeglądarki i rotacji adresów IP.
Dla zespołu ds. niezawodności witryny oznacza to ciągłą walkę z napływem niechcianego ruchu , który wymaga stałego monitorowania i ograniczeń. Odwraca to uwagę od utrzymywania i ulepszania witryny dla wolontariuszy i społeczności.
Przeczytaj także: To nie ludzie dominują w internecie. Coś innego generuje większy ruch
Rozwiązanie tego problemu jest trudne
Dostosowanie się do tej sytuacji stanowi wyzwanie również dla infrastruktury programistycznej Wikimedia — narzędzi do przeglądania kodu i zgłaszania błędów — które również są nieustannie obciążane przez boty.
Spotykamy się z raportami podobnymi do tych, którymi podzielił się Daniel Stenberg z projektu Curl, który zauważył wzrost liczby fałszywych wyników pozytywnych generowanych przez sztuczną inteligencję, a także z raportami Drewa DeVaulta z SourceHut, który zaobserwował, że boty przeprowadzają masowe przeszukiwania logów Git w sposób wcześniej niespotykany w ruchu ludzkim.
Wdrożenie bardziej zaawansowanych rozwiązań technicznych, takich jak proof-of-work (który zmusza boty do wykonywania dodatkowych obliczeń) lub opóźnione tarpity odpowiedzi (które celowo spowalniają połączenia) może nieco złagodzić problem, ale nie jest to kompleksowe rozwiązanie. Ograniczają one nadmierny ruch, ale nie rozwiązują całkowicie problemu, ponieważ boty wciąż odkrywają nowe sposoby na obejście środków bezpieczeństwa.
Niektóre inicjatywy próbują również utworzyć wspólne listy blokujące boty, takie jak pliki ai.robots.txt, a podmioty komercyjne świadczą płatne usługi analizy ruchu, takie jak Cloudflare AI Labyrinth,
Źródło