Najnowsza sztuczna inteligencja Anthropic jest niesamowicie potężna. Podczas testów straszyła i szantażowała pracowników

Anthropic, główny konkurent OpenAI, wprowadził modele Claude Opus 4 i Claude Sonnet 4. Te postępy stanowią czołówkę systemów językowych, oferując szybkie odpowiedzi obok tego, co nazywa się rozszerzonym myśleniem — zdolnością do długoterminowego rozumowania, rozszerzoną o różne narzędzia. Co to oznacza w praktyce? Osiągnięcie rekordowej wydajności w testach porównawczych kodowania i utrzymanie kilku godzin niezawodnej pracy nad skomplikowanymi projektami, torując drogę do rozwoju coraz bardziej autonomicznych agentów i wirtualnych pracowników. Niemniej jednak istnieją również niepokojące aspekty związane z nową sztuczną inteligencją.

12b4c3334daf2131b7c94ac4925ee9b4, Biznes Fakty — Dario Amodei (na zdjęciu), dyrektor generalny Anthropic, zaprezentował 22 maja nowe modele sztucznej inteligencji. | Zdjęcie: Don Feria/Associated Press / East News

Ostatnio opracowana sztuczna inteligencja firmy Anthropic zdołała na przykład szantażować pracownika, który chciał ją dezaktywować podczas testów.
Miało też możliwość groźby wysłania danych użytkownika mediom lub władzom w przypadku próby podjęcia nieetycznych działań.
Funkcje najnowszych modeli są zdumiewające.
Wyjaśniamy, do czego zdolne są najnowsze Claude Opus i Sonnet.
Dodatkowe informacje na temat biznesu można znaleźć na Businessinsider.com.pl.

Ogłoszenie zostało przyjęte z entuzjazmem w sektorze sztucznej inteligencji, a jednocześnie wywołało dyskusje na temat cen, ryzyka halucynacji i konieczności wzmocnienia środków bezpieczeństwa w przypadku tak wydajnych modeli.

Te nowe modele zostały wprowadzone na rynek podczas wydarzenia „Code w/ Claude” firmy, gdzie Anthropic nazwał je modelami hybrydowymi, ponieważ mogą przełączać się między trybem natychmiastowej odpowiedzi a fazą głębszego myślenia , wykorzystując wyszukiwarki, bazy wiedzy lub środowiska programistyczne. Wprowadzenie na rynek obejmuje dwie wersje: Claude Opus 4 — wiodący model mający na celu osiągnięcie najwyższej jakości — oraz lżejszą Claude Sonnet 4, przeznaczoną do zadań rutynowych i dostępną dla użytkowników z bezpłatnymi kontami.

Zobacz także: Destylacja w sztucznej inteligencji: Tego boją się dziś miliarderzy

Główne cechy modeli Claude 4

W ocenach SWE-bench (które oceniają, czy model może samodzielnie korygować rzeczywiste błędy kodowania) , Opus 4 osiągnął 72,5 procent dokładności, przewyższając wszystkie wcześniejsze modele i konkurencyjne systemy , a w Terminal-bench (który testuje zdolność modelu do autonomicznego wykonywania złożonych zadań) uzyskał 43,2 procent. Sonnet 4 również podniósł standard, osiągając 72,7 procent w SWE-bench i wykazując wyższą zdolność do precyzyjnego wykonywania instrukcji użytkownika. Oba modele mogą wstrzymywać generowanie, aktywować zewnętrzne narzędzie (takie jak wyszukiwanie w sieci) i integrować nowe informacje ze swoimi odpowiedziami.

Jeśli deweloperzy pozwolą im na dostęp do plików lokalnych, mogą tworzyć i aktualizować swoje pliki pamięci. Pozwala im to zachować kontekst rozszerzonych sesji roboczych i zmniejsza częstotliwość powtarzających się zapytań od użytkowników.

Dla programistów godne uwagi jest to, że Opus 4 może refaktoryzować (reorganizować i przepisywać kod w celu zachowania funkcjonalności przy jednoczesnym zwiększeniu przejrzystości i prostoty) oraz testować kod nieprzerwanie przez wiele godzin, co zostało potwierdzone przez firmy takie jak Cursor, Replit i Rakuten, które zgłaszają znaczne przyspieszenie procesów programistycznych . Claude umożliwia również tworzenie niestandardowych agentów, którzy automatyzują przegląd żądań ściągnięcia lub żądań włączenia zmian kodu do głównego projektu, aby inni mogli je zbadać i zatwierdzić. Sonnet 4 został już wyznaczony przez GitHub jako domyślny model czatu dla Copilot, podczas gdy Opus 4 zostanie uwzględniony w planach Enterprise, przyznając dostęp do zaawansowanego asystenta kodowania tysiącom zespołów bez zmiany ich środowiska pracy.

Oprócz rozwoju oprogramowania modele te czynią postępy w analizie danych i badaniach naukowych ze względu na ich zdolność do długoterminowego rozumowania i biegłość w dokładnym podsumowywaniu obszernych treści.

Przeczytaj także: Badali, czy sztuczna inteligencja mogłaby zastąpić ludzi w miejscu pracy. Wyniki są teraz jasne [BADANIE]

Obszary zastosowań i ceny

Największy potencjał przewidywany jest w przypadku autonomicznych agentów, którzy muszą wykonywać sekwencje obejmujące setki kroków, takie jak migracja kodu między strukturami lub prowadzenie wieloetapowych badań naukowych.

Opus 4 wykazał zdolność do samodzielnego rozwiązywania zadań przez siedem godzin bez utraty kontekstu. W środowisku edukacyjnym Sonnet 4, ze względu na niższy koszt, staje się dostępnym mentorem do nauki programowania i pisania, podczas gdy w firmach badawczych Opus 4 służy jako „asystent badawczy”, łącząc przeglądy literatury z generowaniem hipotez.

Więcej informacji znajdziesz pod filmem:

Ceny pozostają takie same jak w poprzedniej generacji: Opus 4 kosztuje 15 USD za milion tokenów wejściowych i 75 USD za wyjście, podczas gdy Sonnet 4 kosztuje odpowiednio 3 USD i 15 USD. Modele są już dostępne za pośrednictwem Anthropic API, Amazon Bedrock i Google Vertex AI, a także za pośrednictwem płatnych subskrypcji Claude Pro, Max, Team i Enterprise. Sonnet 4 jest również oferowany w wersji bezpłatnej.

Jednak porównania kosztów wskazują, że Google Gemini Pro 2.5 nadal zapewnia bardziej przystępną cenowo wersję z podobną liczbą tokenów kontekstowych , co nasila

Źródło

No votes yet.

Please wait...

Najnowsza sztuczna inteligencja Anthropic jest niesamowicie potężna. Podczas testów straszyła i szantażowała pracowników

Główne cechy modeli Claude 4

Obszary zastosowań i ceny

Dodaj komentarzAnuluj odpowiedź

Życie seniora w Polsce: świeże kierunki w budownictwie mieszkaniowym dla seniorów

Polska i Niderlandy pogłębiają współdziałanie. Sikorski: Kolejne restrykcje na Rosję są niezwykle istotne.

Czy rakiety Tomahawk uderzą w Rosję? Specjaliści: Systemy przeciwlotnicze są nieszczelne, to szansa do wykorzystania.

Enea Management gotowy do rozmów z przedstawicielami pracowników; rozwiązanie Pakietu Gwarancji Zatrudnienia nie wiąże się z redukcją etatów

Czy warto ubezpieczyć swój nowy smartfon?

Michał Kołodziejczak w „Gościu Wydarzeń” [ZOBACZ]

Zełenski i Trump odbyli rozmowę. „Już po raz drugi w dwa dni”

Nowość! Okna Schüco FocusIng z PVC-U o obniżonym śladzie węglowym!

WIŚNIOWSKI wprowadza nowe, lekkie ogrodzenia aluminiowe

Elektronarzędzia – nowości w ofercie Würth Polska

Klejnot w Twojej kuchni. Nowe baterie Mythos Masterpiece to klasa premium

Życie seniora w Polsce: świeże kierunki w budownictwie mieszkaniowym dla seniorów

Polska i Niderlandy pogłębiają współdziałanie. Sikorski: Kolejne restrykcje na Rosję są niezwykle istotne.

Czy rakiety Tomahawk uderzą w Rosję? Specjaliści: Systemy przeciwlotnicze są nieszczelne, to szansa do wykorzystania.

Enea Management gotowy do rozmów z przedstawicielami pracowników; rozwiązanie Pakietu Gwarancji Zatrudnienia nie wiąże się z redukcją etatów

Czy warto ubezpieczyć swój nowy smartfon?

Główne cechy modeli Claude 4

Obszary zastosowań i ceny

Podobne wpisy

Dodaj komentarzAnuluj odpowiedź