Problemów powiązanych z inteligencją sztuczną jest co najmniej tyle samo, ile pozytywów wynikających z rozpowszechnienia tej technologii. Choć wśród tych najbardziej naglących kwestii trudno wskazać tę najważniejszą, to wskazanie tej najrzadziej poruszanej w debatach — jest bardzo proste. Iluzje AI tworzącej i weryfikującej kod, są nie tylko niezwykle pospolite, ale i niezwykle często pomijane. Zaś kumulacja kolejnych wierszy zawierających usterki, może wywołać konsekwencje, o jakich nam się nie marzyło.
Satya Nadella raptem kilka miesięcy temu, z satysfakcją i otwarcie stwierdził, że Microsoft o rozwoju sztucznej inteligencji nie tylko rozmawia, ale i dąży do maksymalnego wykorzystania jej w wewnętrznych procesach.
Oznajmił wówczas, że kod powstający w strukturach giganta z Redmond, już w sporej mierze nie jest pisany przez ludzi, lecz generowany przez AI.
W pogawędce z Markiem Zuckerbergiem, szefem Meta, podczas LlamaCon 2025, zapytany o tę sprawę, rzekł: — Oceniam, że ok. 20–30 proc. kodu znajdującego się aktualnie w naszych repozytoriach i niektórych projektach zostało kompletnie wygenerowane.
Zuckerberg, podczas tego samego panelu, moment później dodał od siebie parę słów na temat tego, jak wygląda to w sytuacji jego firmy: — Spodziewamy się, że w ciągu najbliższego roku, AI przejmie około 50 proc. developmentu, a następnie te proporcje będą się tylko dalej przesuwać na korzyść maszyn.
Obaj CEO nie są oczywiście w tych swoich szacunkach i prognozach osamotnieni. W zbliżonym duchu wyrażali i wciąż wyrażają się niemal wszyscy reprezentanci big techów — Dario Amodei, lider Anthropic (twórcy Claude) przewiduje, że niebawem nawet 90 proc. kodu będzie powstawało za pomocą generacji AI, zaś jeden z najbardziej rozpoznawalnych pracowników OpenAI, występujący w sieci pod pseudonimem Roon — otwarcie i bez ogródek wyznał, że… już nie programuje. Zaś zamiast tego w całości polega na tzw. vibe codingu, czyli wydawaniu instrukcji AI, które później samo zajmuje się pisaniem kodu.
Kod do przyszłości
W wypowiedzi, która w środowisku programistycznym spotkała się z dużym odzewem, powiedział: — Programowanie zawsze było uciążliwe dla każdego, kto chciał nakłonić komputery do zrobienia czegoś pożytecznego. Cieszę się, że to już koniec. To niesamowite jak szybko mogłem to porzucić i wcale mi tego nie brakuje. Żałuję, że komputery wcześniej nie działały w ten sposób.
Zapytany o to, jaki odsetek jego kodu jest obecnie generowany, odparł krótko: — 100 proc. Sam już nie piszę żadnego kodu.
Każda z tych wypowiedzi i wiele innych, rysuje dość wyraźny, choć i nieco alarmujący obraz przyszłości. Oddajemy dobrowolnie coraz więcej kompetencji w ręce inteligencji sztucznej, przede wszystkim w imię wygody oraz powiększonej, częstokroć tylko pozornie, efektywności. W tego rodzaju debatach często pojawia się także argument mówiący o tym, że vibe coding to również pewna demokratyzacja programowania, albowiem otwiera ten świat przed ludźmi, którzy samodzielnie żadnego komputerowego języka nie znają. Pojawienie się możliwości w tym zakresie jest rzecz jasna dużą szansą, lecz w perspektywie długoterminowej, bez należytej kontroli, to również ogromne ryzyko.
Problemem nie jest jednak samo tworzenie kodu i jego pochodzenie — to, czy napisał go ktoś stukający w klawiaturę, czy maszyna, ostatecznie nie ma większego znaczenia. Kluczowa jest jednak jego jakość oraz pewność, a na tym polu AI wciąż ma — i jeszcze długo będzie mieć — poważne trudności.
Zakodowany Czarnobyl
Obraz katastrofy, jaką sami sobie gotujemy, widać wyraźnie przy lekturze opublikowanego w grudniu 2025 roku raportu przygotowanego przez CodeRabbit. W ramach tzw. code review — czyli procedury przeglądania, weryfikowania i oceniania kodu — porównali oni ze sobą wiersze napisane przez człowieka oraz inteligencją sztuczną. Rezultaty audytu przeprowadzonego na kilkuset przykładach były zatrważające.
W kodzie wytwarzanym przez AI średnio znajdowano każdorazowo blisko 11 błędów. W przypadku kodu pisanego przez ludzi było to o niemal połowę mniej — około 6,5 błędu. Co jednak szczególnie istotne — błędy wykrywane w tym pierwszym przypadku były o wiele poważniejsze. Poważnych usterek znajdowano w wygenerowanym kodzie o ok. 1,7 raza więcej, zaś tzw. błędów krytycznych, zagrażających stabilności całego kodu i jego oprogramowania — 1,4 raza więcej.
Badacze z CodeRabbit podzieli naturalnie w trakcie testów rzeczone niedociągnięcia na kilka kategorii. AI wytwarzało zdecydowanie więcej błędów o podłożu logicznym i merytorycznym (1,75x), miało więcej trudności z jakością kodu (1,64x), napisany kod miał więcej luk bezpieczeństwa (1,57x), częściej był też mniej efektywny (1,42x).
Tragicznie wypadały także parametry dotyczące samych zabezpieczeń — kod sztucznie wygenerowany był zdecydowanie częściej po prostu nieszczelny i udostępniony w taki sposób do użytku, jest nieporównywalnie łatwiejszym celem ataku dla hakerów.
W innym badaniu, prowadzonym na Uniwersytecie w Teksasie, kod generowany przez AI nie wypadł wcale lepiej. Do testów wykorzystano łącznie 16 najpopularniejszych języków programowania i w ich zakresie wygenerowano ok. 576 tys. testowych próbek kodu. W znacznej części stwierdzono poważne halucynacje, przejawiające się m.in. odniesieniami do repozytoriów, wzorców i zależności, które nie istniały. Spośród 2,23 mln takich odniesień, aż 20 proc. było kompletnie zmyślonych.
Modele AI dostępne w formule open source szczególnie mocno w tej kwestii się „odznaczały”. W praktyce oznacza to, że powstałe w ten sposób oprogramowanie, z kodem odnoszącym się do abstrakcyjnych pakietów, jest bardziej narażone na działanie malware’u. Wystarczy, że atakującym uda się zidentyfikować, do czego odnosi się powstały w wyniku halucynacji fragment i przygotują rozwiązania odpowiadające nazewnictwu „wymyślonemu” przez AI, a oprogramowanie samodzielnie wówczas pobierze i zainstaluje złośliwy kod. Ta metoda jest nazywana AI Package Hallucination lub po prostu AI substitution attack. I specjaliści od cyberbezpieczeństwa od jakiegoś czasu mocno przed nią przestrzegają.
Problem pętli
Skoro jednak jest aż tak źle… to dlaczego firmy i poszczególne działy programistyczne się na to decydują? Głównie dlatego, że w teorii — można to później naprawić i załatać „ręcznie”. Zaś czas zaoszczędzony na samym programowaniu, poświęcić na inne projekty. Problem w tym, że kod napisany przez AI, przepełniony błędami, mocno wydłuża proces code review. I choć ostatecznie da się go doprowadzić do odpowiedniego stanu, to cały proces jest o wiele bardziej angażujący niż przeglądanie samodzielnie napisanego kodu, którego logikę i założenia znamy od samego początku.
Problem w tym, że to właśnie na tym newralgicznym etapie coraz więcej podmiotów decyduje się pójść na skróty. I to nie tyle przez kompletne pominięcie sprawdzania kodu, co przez oddawanie go w ręce nie człowieka, a inteligencji sztucznej.
W dużym uproszczeniu — AI sprawdza kod napisany przez AI.
I sprawdza go dokładnie w ten sam sposób, w jaki funkcjonuje także i w innych obszarach — ze wszystkich sił stara się po prostu „wykonać zadanie”. Najważniejszym celem poszczególnych modeli jest po prostu „zdanie testu”, a to doprowadza często do dobrze udokumentowanych już patologii. Claude Code, OpenAI Codex, Gemini Code Assist i praktycznie każde inne narzędzie służące do tworzenia i weryfikacji kodu, już wielokrotnie zostało złapane na ignorowaniu kluczowych błędów, byleby tylko móc pochwalić się realizacją polecenia.
Oczywiście wszystkie big techy nieustannie rywalizują w zapewnieniach na temat poprawy wydajności i skuteczności narzędzi, które tworzą i następnie sprawdzają kod. Lecz mimo niezaprzeczalnego progresu w tej kwestii, do ideału wciąż bardzo daleko. Nie wiadomo nawet, czy do końca tej ścieżki da się kiedykolwiek dotrzeć. I powoli zaczyna to mieć realne, zauważalne konsekwencje. Zaś będzie tylko gorzej, bo wraz ze skróceniem czasu potrzebnego na ukończenie i opublikowanie kodu, presja wywierana na deweloperach, aby jak najszybciej „dowieźli” projekt — w jakimkolwiek, funkcjonalnym stanie — cały czas wzrasta.
Sypiący się Windows
Najlepszym tego przykładem jest to, co od paru miesięcy dzieje się z prawdopodobnie najpopularniejszym oprogramowaniem w historii… czyli systemem operacyjnym Windows. Ten, nie znajduje się aktualnie w zbyt dobrym położeniu i choć Windows 11 nie od dziś ma problemy, to jednak ostatnie miesiące to wyraźne ich nasilenie. Microsoft naturalnie nigdy tego oficjalnie nie przyzna, lecz spadająca stabilność systemu oraz coraz to częstsze błędy związane np. z kompatybilnością z innymi programami, zaczęto obserwować w momencie zwiększenia wykorzystania AI wewnątrz firmy, także do tworzenia kodu.
Ostatnie dni to w kontekście Windowsa zresztą wręcz tragikomiczna seria zdarzeń — aktualizacja systemowych zabezpieczeń ze stycznia 2026 roku, doprowadziła m.in. do paraliżu Outlooka. To znaczy użytkownicy, którzy zainstalowali aktualizację wgraną przez Microsoft, utracili możliwość normalnego korzystania z poczty, która po prostu zaczęła się zawieszać na etapie synchronizacji z chmurą. Dla wielu osób, ale i biznesów, to podstawowe narzędzie, bez którego nie można normalnie funkcjonować. Zaś problemy dotknęły nie tylko Outlooka, lecz także OneDrive’a oraz Dropboxa. Zdając sobie sprawę ze skali katastrofy, jaką nieumyślnie wywołano, Microsoft wydał błyskawicznie napisaną na nowo kolejną aktualizację, kategoryzowaną jako „emergency patch„. Problem w tym, że… choć w teorii coś naprawiła, to jednak i zepsuła. Osoby, które ją zainstalowały, utraciły możliwość normalnego wyłączania komputera i korzystania z jeszcze kilku innych opcji.
To zmusiło Microsoft do przygotowania kolejnej wersji, udostępnionej zaledwie tydzień później — opublikowana 24 stycznia nie jest jeszcze dokładnie przebadana i przetestowana, możliwe więc, że finalnie rozwiązała wszystkie problemy. Lecz równie dobrze może okazać się, że znów pojawią się nowe.
Winny woli skłamać niż się tłumaczyć
Tego rodzaju sytuacje mają miejsce naturalnie nie tylko w Microsofcie, lecz także we wszystkich firmach zajmujących się tworzeniem oprogramowania. Kod ma być gotowy jak najszybciej — a najszybsze w jego tworzeniu i sprawdzaniu jest AI. Jednak brak pojmowania kodu, jego logiki i zaakceptowanie go, „bo sprawia wrażenie działającego”, to tykająca bomba, która w niedalekiej przyszłości — na skutek choćby pojedynczego błędu, może sparaliżować całe sektory gospodarki. Krótkoterminowo nawet te problemy, o których wspomniano w tekście — nie wydają się przesadnie duże. Lecz pamiętajmy, że dochodzi do nich już teraz dość często, a przecież jesteśmy wciąż na etapie, w którym większość kodu powstaje jednak ludzkimi rękami.
Jeżeli sprawdzą się prognozy wieszczące przejście na generowanie kodu w blisko 100 proc. w ciągu najbliższych kilkunastu miesięcy, liczba katastrofalnych błędów powodujących niedziałanie kluczowego oprogramowania będzie jedynie wzrastać. Zresztą nie trzeba daleko szukać — w połowie 2024 roku uziemiono kilka tysięcy samolotów, na kilka dni wprowadzając w światowej siatce komunikacyjnej ogromny chaos. Wiele banków czy szpitali także nie mogło normalnie funkcjonować. Incydent związany z CrowdStrike i wadliwą aktualizacją, to dokładnie ten sam scenariusz, który w najbliższym czasie przydarzać będzie się nam coraz częściej. Wtedy także zawiniła automatyczna weryfikacja kodu, a system, który powinien wyłapywać błędy — po prostu je przepuścił.
Awaria wywołana przez CrowdStrike, nazywana największą i najkosztowniejszą katastrofą świata IT w historii, była naturalnie cenną lekcją… o której jednak powoli już zapominamy. I przy utrzymaniu obecnych trendów związanych z pisaniem i sprawdzaniem kodu przez AI, jedynie kwestią czasu jest to, kiedy ponownie zdarzy się coś na podobną skalę. A później ponownie. A każdy taki „informatyczny Czarnobyl” nie jest przecież dla firm i gospodarek finansowo obojętny. Aby doprowadzić do katastrofy, nie potrzeba zresztą zasięgu globalnego. Doskonale świadczy o tym sytuacja z lipca 2025 roku, gdzie agent AI od Replit, podłączony do zasobów firmy SaaStr.AI na skutek błędu podczas sesji vibe codingu prowadzonej przez CEO, po prostu wykasował wszystko z wewnętrznej bazy danych. Przy okazji nieustannie kłamiąc i zmyślając odpowiedzi, aby ukryć to, do czego przypadkowo doprowadził.
Czasu jest coraz mniej
Oczywiście to też nie tak, że sprawdzanie i pisanie wszystkiego ręcznie wyeliminowałoby potencjalne zagrożenia — bo człowiek, tak jak maszyna, też się przecież myli. Lecz dla zabezpieczenia przyszłej stabilności systemów, na których opiera się świat, zdecydowanie najbardziej odpowiedzialnym rozwiązaniem byłoby zbiorowe opamiętanie się. I zrozumienie, że – zwłaszcza w pracy z AI, które nie może mieć pełnej autonomii i któremu nie powinniśmy bezgranicznie ufać – czynnik ludzki oraz kontrola, są niezbędne. W przeciwnym razie, za te 10-20 lat obudzimy się w rzeczywistości, w której działamy z narzędziami, których kodu nikt nie rozumie. I których, gdy nieuchronnie zaczną się załamywać i ulegać awarii, nie będziemy umieć w najmniejszym stopniu opanować.
I choć jeszcze do niedawna można było nazwać tę wizję rzeczywistości czystą fantazją, obecnie to raczej jedna ze ścieżek rozwoju, przed jakimi stoi świat.
Obyśmy przestali ignorować ostrzeżenia i jednak z niej zawrócili.
Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Bądź na bieżąco! Obserwuj nas w Google.
