Nowa funkcja Obrazów w ChatGPT budzi podziw. Grafiki w końcu "reagują" na instrukcje.

OpenAI zaprezentowało odświeżoną wersję tworzenia obrazów w ChatGPT. Opiera się ona na modelu GPT-Image-1.5 i podobno znacznie lepiej radzi sobie z modyfikacją istniejących grafik, jest precyzyjniejsza w interpretacji poleceń i sprawniejsza w umieszczaniu tekstu na obrazach — a do tego działa nawet czterokrotnie szybciej. Jak to wygląda w realnym użytkowaniu? Wszystkie te obietnice znajdują odzwierciedlenie, a wyniki (poniżej) budzą podziw. To idealne narzędzie do błyskawicznych poprawek i innowacyjnych poszukiwań.

OpenAI wprowadza nowy generator obrazów w ChatGPT | Foto: STRF/STAR MAX/IPx/Associated Press / East News

OpenAI udostępniło tryb Images oparty na GPT-Image-1.5
Wytwarza grafiki nawet czterokrotnie prędzej, staranniej interpretuje dyspozycje i lepiej dopracowuje detale
Największym postępem jest obróbka fotografii. Model zmienia jedynie wybrane aspekty, zachowując integralność postaci, światła i kompozycji
Nowy interfejs oferuje również twórczy hub ze stylami, zapytaniami i możliwością zachowywania podobieństwa dla kolejnych tworów
Dodatkowe informacje na temat biznesu znajdziesz na witrynie Businessinsider.com.pl

Aktualizacja została zapowiedziana w drugiej połowie grudnia i jest już zastosowana w ChatGPT dla wszystkich użytkowników. Jednocześnie trafiła również do API jako model gpt-image-1.5 dla ekspertów i przedsiębiorstw pragnących wykorzystać tę technologię w swoich usługach i produktach.

OpenAI wspomina, że nowe, dedykowane miejsce Images na pasku bocznym (czyli ulepszone środowisko do badania stylów i inspiracji) pojawia się natychmiast u większości osób, natomiast dostęp dla abonamentów Business i Enterprise ma zostać dodany w późniejszym terminie.

Dalszy ciąg pod materiałem wideo:

AI pomoże zarządzać ludźmi? Prof. Dobrowolska o roli lidera w dobie rewolucji technologicznej

Zobacz też: Nowa era obrazów z AI. Google Nano Banana Pro podbija internet

Obróbka zdjęć lepsza niż kiedykolwiek

Największa innowacja dotyczy retuszu obrazów. Gdy załadujemy zdjęcie i poprosimy o modyfikację, model ma zmieniać tylko to, czego chcemy, równocześnie zachowując zgodność oświetlenia, konstrukcji i aparycji osób pomiędzy następnymi wersjami.

Jest to istotne, ponieważ w minionych generacjach nietrudno było utracić tożsamość postaci albo nieumyślnie przestawić istotne elementy ujęcia.

Prompt: Ludzie patrzą na tym zdjęciu na tablicę z ofertami pracy. Zmień te oferty pracy na kolorowe papierki po cukierkach | Mat. własne / OpenAI

OpenAI silnie podkreśla również, że GPT-Image-1.5 lepiej radzi sobie z bardziej skomplikowanymi dyspozycjami i zależnościami między elementami na obrazie, a ponadto robi krok naprzód w generowaniu tekstu — również drobnego i zagęszczonego, co do tej pory stanowiło słaby punkt generatorów.

W komplecie otrzymujemy udoskonalenia jakościowe, takie jak naturalny wygląd efektów i sprawniejszą obsługę scen z licznymi małymi twarzami, na przykład tłumem na ulicy.

Czytaj też: Granica między AI a ludźmi się zaciera. Zaczynamy mówić jak chatboty

Nowy tryb to nie tylko model, ale i interfejs. W ChatGPT pojawia się wydzielona strefa „Images” na pasku bocznym — coś w rodzaju kreatywnego centrum z gotowymi stylami, filtrami i wskazówkami promptów dostosowywanymi do bieżących trendów. Intrygująca jest możliwość jednorazowego „wgrania podobieństwa”, dzięki której można następnie powracać do własnego wizerunku w kolejnych projektach bez ponownego wyszukiwania zdjęcia w galerii.

Z punktu widzenia przedsiębiorstw i zespołów kreatywnych najważniejsze jest to, że akcent przesuwa się na przewidywalną pracę, czyli szybsze generowanie, dokładniejsze poprawki i większą spójność w kolejnych iteracjach. OpenAI otwarcie wskazuje na takie zastosowania jak marketing, e-commerce, projektowanie i komunikację wewnętrzną. To dziedziny, gdzie AI przyspiesza proces od zamysłu do materiału gotowego do wykorzystania.

Prompt: Osoba na tym zdjęciu trzyma japońskiego grzyba matsutake. Zmień go na nowoczesnego smartfona | Mat. własne / OpenAI

Efekt po edycji (wyraźny błąd — 6 palców) | Mat. własne / OpenAI

W API GPT-Image-1.5 ma być również bardziej brand safe (ochrona marki) w praktyce, ponieważ AI lepiej zachowuje logo i zasadnicze elementy identyfikacji wizualnej podczas edycji. Firma dodaje argument budżetowy — wprowadzanie i wyprowadzanie obrazu ma być o blisko 20 proc. tańsze niż w GPT Image 1, a model można testować między innymi w Playground.

Sprawdź też: ChatGPT to cyfrowy powiernik użytkowników

To wciąż nie perfekcja

OpenAI nie ukrywa, że to ideał. W oficjalnym opisie występuje zastrzeżenie, że pomimo dostrzegalnych postępów rezultaty nadal bywają dalekie od doskonałości, a część ograniczeń (na przykład w bardziej wymagających stylach, scenach z wieloma twarzami czy w zastosowaniach wielojęzycznych) wciąż wymaga doszlifowania.

Prompt: Na zdjęciu widać kryty basen przy jasnym świetle. Zmień scenerię tego zdjęcia na dramatyczną, ponurą, a basen powinien być zamrożony | OpenAI

Premiera nowego generatora obrazów ChatGPT ma również wyraźny kontekst komercyjny. Media traktują ją jako odpowiedź na ostatnią falę entuzjazmu związaną z konkurencyjnymi modelami obrazowania, zwłaszcza Google’a, które zwróciły uwagę realizmem i funkcjami. To sygnał, że walka o tworzenie obrazów wkracza w fazę, w której liczy się nie tylko jakość, ale również szybkość, powtarzalność i przydatność w codziennej pracy.

Autor: Grzegorz Kubera, dziennikarz Business Insider Polska

Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Bądź na bieżąco! Obserwuj nas w Google.

No votes yet.

Please wait...

Nowa funkcja Obrazów w ChatGPT budzi podziw. Grafiki w końcu „reagują” na instrukcje.

Obróbka zdjęć lepsza niż kiedykolwiek

To wciąż nie perfekcja

Dodaj komentarzAnuluj odpowiedź