OpenAI zaprezentowało odświeżoną wersję tworzenia obrazów w ChatGPT. Opiera się ona na modelu GPT-Image-1.5 i podobno znacznie lepiej radzi sobie z modyfikacją istniejących grafik, jest precyzyjniejsza w interpretacji poleceń i sprawniejsza w umieszczaniu tekstu na obrazach — a do tego działa nawet czterokrotnie szybciej. Jak to wygląda w realnym użytkowaniu? Wszystkie te obietnice znajdują odzwierciedlenie, a wyniki (poniżej) budzą podziw. To idealne narzędzie do błyskawicznych poprawek i innowacyjnych poszukiwań.

- OpenAI udostępniło tryb Images oparty na GPT-Image-1.5
- Wytwarza grafiki nawet czterokrotnie prędzej, staranniej interpretuje dyspozycje i lepiej dopracowuje detale
- Największym postępem jest obróbka fotografii. Model zmienia jedynie wybrane aspekty, zachowując integralność postaci, światła i kompozycji
- Nowy interfejs oferuje również twórczy hub ze stylami, zapytaniami i możliwością zachowywania podobieństwa dla kolejnych tworów
- Dodatkowe informacje na temat biznesu znajdziesz na witrynie Businessinsider.com.pl
Aktualizacja została zapowiedziana w drugiej połowie grudnia i jest już zastosowana w ChatGPT dla wszystkich użytkowników. Jednocześnie trafiła również do API jako model gpt-image-1.5 dla ekspertów i przedsiębiorstw pragnących wykorzystać tę technologię w swoich usługach i produktach.
OpenAI wspomina, że nowe, dedykowane miejsce Images na pasku bocznym (czyli ulepszone środowisko do badania stylów i inspiracji) pojawia się natychmiast u większości osób, natomiast dostęp dla abonamentów Business i Enterprise ma zostać dodany w późniejszym terminie.
Dalszy ciąg pod materiałem wideo:
AI pomoże zarządzać ludźmi? Prof. Dobrowolska o roli lidera w dobie rewolucji technologicznej
Zobacz też: Nowa era obrazów z AI. Google Nano Banana Pro podbija internet
Obróbka zdjęć lepsza niż kiedykolwiek
Największa innowacja dotyczy retuszu obrazów. Gdy załadujemy zdjęcie i poprosimy o modyfikację, model ma zmieniać tylko to, czego chcemy, równocześnie zachowując zgodność oświetlenia, konstrukcji i aparycji osób pomiędzy następnymi wersjami.
Jest to istotne, ponieważ w minionych generacjach nietrudno było utracić tożsamość postaci albo nieumyślnie przestawić istotne elementy ujęcia.


OpenAI silnie podkreśla również, że GPT-Image-1.5 lepiej radzi sobie z bardziej skomplikowanymi dyspozycjami i zależnościami między elementami na obrazie, a ponadto robi krok naprzód w generowaniu tekstu — również drobnego i zagęszczonego, co do tej pory stanowiło słaby punkt generatorów.
W komplecie otrzymujemy udoskonalenia jakościowe, takie jak naturalny wygląd efektów i sprawniejszą obsługę scen z licznymi małymi twarzami, na przykład tłumem na ulicy.
Czytaj też: Granica między AI a ludźmi się zaciera. Zaczynamy mówić jak chatboty
Nowy tryb to nie tylko model, ale i interfejs. W ChatGPT pojawia się wydzielona strefa „Images” na pasku bocznym — coś w rodzaju kreatywnego centrum z gotowymi stylami, filtrami i wskazówkami promptów dostosowywanymi do bieżących trendów. Intrygująca jest możliwość jednorazowego „wgrania podobieństwa”, dzięki której można następnie powracać do własnego wizerunku w kolejnych projektach bez ponownego wyszukiwania zdjęcia w galerii.
Z punktu widzenia przedsiębiorstw i zespołów kreatywnych najważniejsze jest to, że akcent przesuwa się na przewidywalną pracę, czyli szybsze generowanie, dokładniejsze poprawki i większą spójność w kolejnych iteracjach. OpenAI otwarcie wskazuje na takie zastosowania jak marketing, e-commerce, projektowanie i komunikację wewnętrzną. To dziedziny, gdzie AI przyspiesza proces od zamysłu do materiału gotowego do wykorzystania.


W API GPT-Image-1.5 ma być również bardziej brand safe (ochrona marki) w praktyce, ponieważ AI lepiej zachowuje logo i zasadnicze elementy identyfikacji wizualnej podczas edycji. Firma dodaje argument budżetowy — wprowadzanie i wyprowadzanie obrazu ma być o blisko 20 proc. tańsze niż w GPT Image 1, a model można testować między innymi w Playground.
Sprawdź też: ChatGPT to cyfrowy powiernik użytkowników
To wciąż nie perfekcja
OpenAI nie ukrywa, że to ideał. W oficjalnym opisie występuje zastrzeżenie, że pomimo dostrzegalnych postępów rezultaty nadal bywają dalekie od doskonałości, a część ograniczeń (na przykład w bardziej wymagających stylach, scenach z wieloma twarzami czy w zastosowaniach wielojęzycznych) wciąż wymaga doszlifowania.


Premiera nowego generatora obrazów ChatGPT ma również wyraźny kontekst komercyjny. Media traktują ją jako odpowiedź na ostatnią falę entuzjazmu związaną z konkurencyjnymi modelami obrazowania, zwłaszcza Google’a, które zwróciły uwagę realizmem i funkcjami. To sygnał, że walka o tworzenie obrazów wkracza w fazę, w której liczy się nie tylko jakość, ale również szybkość, powtarzalność i przydatność w codziennej pracy.
Autor: Grzegorz Kubera, dziennikarz Business Insider Polska
Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Bądź na bieżąco! Obserwuj nas w Google.
