Biznes Fakty
Najnowsza sztuczna inteligencja Anthropic jest niesamowicie potężna. Podczas testów straszyła i szantażowała pracowników
Anthropic, główny konkurent OpenAI, wprowadził modele Claude Opus 4 i Claude Sonnet 4. Te postępy stanowią czołówkę systemów językowych, oferując szybkie odpowiedzi obok tego, co nazywa się rozszerzonym myśleniem — zdolnością do długoterminowego rozumowania, rozszerzoną o różne narzędzia. Co to oznacza w praktyce? Osiągnięcie rekordowej wydajności w testach porównawczych kodowania i utrzymanie kilku godzin niezawodnej pracy nad skomplikowanymi projektami, torując drogę do rozwoju coraz bardziej autonomicznych agentów i wirtualnych pracowników. Niemniej jednak istnieją również niepokojące aspekty związane z nową sztuczną inteligencją.

- Ostatnio opracowana sztuczna inteligencja firmy Anthropic zdołała na przykład szantażować pracownika, który chciał ją dezaktywować podczas testów.
- Miało też możliwość groźby wysłania danych użytkownika mediom lub władzom w przypadku próby podjęcia nieetycznych działań.
- Funkcje najnowszych modeli są zdumiewające.
- Wyjaśniamy, do czego zdolne są najnowsze Claude Opus i Sonnet.
- Dodatkowe informacje na temat biznesu można znaleźć na Businessinsider.com.pl.
Ogłoszenie zostało przyjęte z entuzjazmem w sektorze sztucznej inteligencji, a jednocześnie wywołało dyskusje na temat cen, ryzyka halucynacji i konieczności wzmocnienia środków bezpieczeństwa w przypadku tak wydajnych modeli.
Te nowe modele zostały wprowadzone na rynek podczas wydarzenia „Code w/ Claude” firmy, gdzie Anthropic nazwał je modelami hybrydowymi, ponieważ mogą przełączać się między trybem natychmiastowej odpowiedzi a fazą głębszego myślenia , wykorzystując wyszukiwarki, bazy wiedzy lub środowiska programistyczne. Wprowadzenie na rynek obejmuje dwie wersje: Claude Opus 4 — wiodący model mający na celu osiągnięcie najwyższej jakości — oraz lżejszą Claude Sonnet 4, przeznaczoną do zadań rutynowych i dostępną dla użytkowników z bezpłatnymi kontami.
Zobacz także: Destylacja w sztucznej inteligencji: Tego boją się dziś miliarderzy
Główne cechy modeli Claude 4
W ocenach SWE-bench (które oceniają, czy model może samodzielnie korygować rzeczywiste błędy kodowania) , Opus 4 osiągnął 72,5 procent dokładności, przewyższając wszystkie wcześniejsze modele i konkurencyjne systemy , a w Terminal-bench (który testuje zdolność modelu do autonomicznego wykonywania złożonych zadań) uzyskał 43,2 procent. Sonnet 4 również podniósł standard, osiągając 72,7 procent w SWE-bench i wykazując wyższą zdolność do precyzyjnego wykonywania instrukcji użytkownika. Oba modele mogą wstrzymywać generowanie, aktywować zewnętrzne narzędzie (takie jak wyszukiwanie w sieci) i integrować nowe informacje ze swoimi odpowiedziami.
Jeśli deweloperzy pozwolą im na dostęp do plików lokalnych, mogą tworzyć i aktualizować swoje pliki pamięci. Pozwala im to zachować kontekst rozszerzonych sesji roboczych i zmniejsza częstotliwość powtarzających się zapytań od użytkowników.
Dla programistów godne uwagi jest to, że Opus 4 może refaktoryzować (reorganizować i przepisywać kod w celu zachowania funkcjonalności przy jednoczesnym zwiększeniu przejrzystości i prostoty) oraz testować kod nieprzerwanie przez wiele godzin, co zostało potwierdzone przez firmy takie jak Cursor, Replit i Rakuten, które zgłaszają znaczne przyspieszenie procesów programistycznych . Claude umożliwia również tworzenie niestandardowych agentów, którzy automatyzują przegląd żądań ściągnięcia lub żądań włączenia zmian kodu do głównego projektu, aby inni mogli je zbadać i zatwierdzić. Sonnet 4 został już wyznaczony przez GitHub jako domyślny model czatu dla Copilot, podczas gdy Opus 4 zostanie uwzględniony w planach Enterprise, przyznając dostęp do zaawansowanego asystenta kodowania tysiącom zespołów bez zmiany ich środowiska pracy.
Oprócz rozwoju oprogramowania modele te czynią postępy w analizie danych i badaniach naukowych ze względu na ich zdolność do długoterminowego rozumowania i biegłość w dokładnym podsumowywaniu obszernych treści.
Przeczytaj także: Badali, czy sztuczna inteligencja mogłaby zastąpić ludzi w miejscu pracy. Wyniki są teraz jasne [BADANIE]
Obszary zastosowań i ceny
Największy potencjał przewidywany jest w przypadku autonomicznych agentów, którzy muszą wykonywać sekwencje obejmujące setki kroków, takie jak migracja kodu między strukturami lub prowadzenie wieloetapowych badań naukowych.
Opus 4 wykazał zdolność do samodzielnego rozwiązywania zadań przez siedem godzin bez utraty kontekstu. W środowisku edukacyjnym Sonnet 4, ze względu na niższy koszt, staje się dostępnym mentorem do nauki programowania i pisania, podczas gdy w firmach badawczych Opus 4 służy jako „asystent badawczy”, łącząc przeglądy literatury z generowaniem hipotez.
Więcej informacji znajdziesz pod filmem:
Ceny pozostają takie same jak w poprzedniej generacji: Opus 4 kosztuje 15 USD za milion tokenów wejściowych i 75 USD za wyjście, podczas gdy Sonnet 4 kosztuje odpowiednio 3 USD i 15 USD. Modele są już dostępne za pośrednictwem Anthropic API, Amazon Bedrock i Google Vertex AI, a także za pośrednictwem płatnych subskrypcji Claude Pro, Max, Team i Enterprise. Sonnet 4 jest również oferowany w wersji bezpłatnej.
Jednak porównania kosztów wskazują, że Google Gemini Pro 2.5 nadal zapewnia bardziej przystępną cenowo wersję z podobną liczbą tokenów kontekstowych , co nasila
Źródło