ChatGPT przemówił ludzkim głosem. Robi nawet przerwy na złapanie oddechu

Sztuczna inteligencja OpenAI, popularny ChatGPT, zaczął reagować na polecenia głosowe oraz przeprowadza konwersacje z użytkownikami. Najnowsza funkcja o nazwie Advanced Voice Mode (AVM) imponuje efektami, ale jest też nieco przerażająca.

  • Brzmi w zasadzie jak człowiek, robi przerwy na łapanie oddechu, zna wiele języków
  • ChatGPT w trybie głosowym jest zdolny do realizacji wielu zadań
  • Również tych, które obecnie wykonują pracownicy, np. z działu obsługi klienta czy wsparcia technicznego
  • Dla jednych pojawienie się nowej funkcji oznacza ekscytację, inni, np. lektorzy, obawiają się utraty pracy
  • Najnowsze możliwości ChatGPT zostaną udostępnione na jesień
  • Więcej informacji o biznesie znajdziesz na stronie Businessinsider.com.pl

W czerwcu br. OpenAI prezentowało najnowszą wersję ChatGPT i to wtedy mogliśmy posłuchać asystenta głosowego po raz pierwszy. Całość sprawiała wrażenie jakby żywcem wyjęta z hollywoodzkiego filmu „Her”, zwłaszcza że głos sztucznej inteligencji łudząco przypominał ten od Scarlett Johansson. Aktorka zapowiedziała pozew, a OpenAI wstrzymało się z udostępnieniem asystenta.

Obecnie firma wprowadziła już tryb AVM, choć teraz mogą z niego korzystać tylko wybrani użytkownicy płatnego konta ChatGPT Plus. Na razie, jak tłumaczy OpenAI, nowość oferowana jest „wąskiej grupie subskrybentów” i działa w trybie alpha. Ma to sugerować, że asystent może popełniać jeszcze sporo błędów i należy traktować jego odpowiedzi z dużą dozą sceptycyzmu.

Sprawdź też: Od klonowania głosu i tworzenia muzyki, po prezentacje i profesjonalne teksty. Top 10 najlepszych aplikacji AI

Na premierę czekają miliony

Funkcja zapowiedziana w czerwcu wraz z premierą najnowszej wersji sztucznej inteligencji, ChatGPT-4o, szybko wywołała ogromne zamieszanie i zainteresowanie wśród użytkowników. Wiele osób chciałoby zyskać możliwość pracy w taki sposób, jak robił to bohater filmów Iron Man, korzystający ze swojego asystenta JARVIS, który rozumiał wszelkie polecenia w języku naturalnym i z chęcią je realizował.

Pojawienie się AVM powoduje, że fikcja z filmów Marvela de facto staje się rzeczywistością. Sztuczna inteligencja będzie mogła reagować na nasze polecenia w naturalny sposób, choć nie zrealizuje tak skomplikowanych zadań, jakie wykonywał JARVIS. Przynajmniej na razie.

ChatGPT liczy bardzo szybko do 10, a potem do 50. Robi przerwę na załapanie oddechu:

HtmlCode

Osoby, które miały okazję wypróbować AVM, twierdzą, że rozmowy z ChatGPT możemy prowadzić w czasie rzeczywistym i są one trudne do odróżnienia, gdy porównamy je z człowiekiem. ChatGPT odpowiada bardzo „po ludzku”, robi przerwy na złapanie oddechu, pozwala też, aby mu przerywać, by coś wtrącić, a następnie natychmiast kontynuuje rozmowę, uwzględniając dodatkowy kontekst. Mało tego: może nawet reagować na emocjonalne sygnały użytkownika poprzez dobór odpowiedniego tonu i sposobu wypowiedzi. W trakcie opowiadania historii potrafi też dostarczać dodatkowe efekty dźwiękowe, co jest przydatne np. w momencie opowiadania bajek dla dzieci.

Prezentacja funkcji głosowej z czerwca br.:

OpenAI stało się mistrzem imitacji, bo trenuje swoje modele językowe na gigantycznych zbiorach danych, wykorzystując przy tym infrastrukturę IT o wartości miliardów dolarów. Tryb głosowy symuluje przerwy na oddech, bo został przeszkolony na próbkach dźwiękowych od prawdziwych ludzi, które — co naturalne — zawierały element łapania oddechu. Potrafi więc symulować wdechy w odpowiednich momentach, bo przeanalizował setki tysięcy, jeśli nie milionów różnych nagrań ludzkiej mowy.

Czytaj też: OpenAI wprowadza nową wersję ChatGPT. Jest szybsza i bezpieczniejsza

Zamiennik lektora i konsultanta obsługi klienta

Dla wielu użytkowników ChatGPT z funkcją mówienia to oczywiście świetne narzędzie, ale dla lektorów czy specjalistów ds. obsługi klienta może to być realne zagrożenie dla utrzymania pracy.

Czytaj też: Po lektorach pora na fotografów. Sztuczna inteligencja chce odebrać im zarobek

AVM nie ma praktycznie żadnego opóźnienia, rozmowa z nim przebiega tak sprawnie, jak z człowiekiem. Potrafi używać różnych akcentów, zna liczne języki obce. Jeśli otrzyma tekst do przeczytania, zrobi to bez najmniejszego problemu i w taki sposób, jak będziemy sobie tego życzyć. Kiedy zaś zostanie podłączony do odpowiedniej bazy danych, może wykorzystywać jej informacje do odpowiadania na pytania (np. działać jako pracownik wsparcia technicznego czy konsultat ds. obsługi zapytań klientów).

Oczywiście obecnie, w wersji alpha, nowa funkcja ChatGPT może generować liczne błędy. Jego wiedza jest ogromna, ale nie oznacza, że faktycznie wie wszystko i zna odpowiedź na każde pytanie. Jeśli nie zna, potrafi tworzyć własne „wersje prawdy”, co w przypadku sztucznej inteligencji określane jest tzw. halucynacjami.

OpenAI zapowiada, że stale dopracowuje model głosowy i współpracowała z ok. setką zewnętrznych testerów, którzy stawiali przed AI coraz trudniejsze wyzwania. Testerzy posługiwali się łącznie 45 różnymi językami i pochodzili z 29 różnych obszarów geograficznych (nie podano skąd dokładnie byli). Co ważne, system jest zaprojektowany w taki sposób, aby nie był w stanie naśladować znanych osób publicznych i gwiazd, choć trudno powiedzieć czy to zabezpieczenie nie będzie łatwe do obejścia. Firma dodała też filtry rozpoznające i blokujące prośby o generowanie muzyki lub innych chronionych prawem autorskim materiałów.

Czytaj też: Sztuczna inteligencja to komputerowy mózg. Wyjaśniamy, czym jest ta przełomowa technologia

Dla wszystkich na jesień

OpenAI obecnie wprowadza jeszcze poprawki i zapowiada, że wersja dla wszystkich użytkowników ChatGPT Plus zostanie udostępniona na jesień. Na razie nie znamy konkretnej daty, ani nawet miesiąca.

Jednym z wyzwań, przed jakimi stoi obecnie spółka prowadzona przez Sama Altmana, jest odpowiednie dostosowanie infrastruktury do zwiększonego ruchu. Twórca ChatGPT spodziewa się, że po udostępnieniu AVM miliony osób zacznie korzystać z funkcji głosowych w tym samym czasie, generując mnóstwo zapytań do OpenAI. Obsługa takiej ilości zapytań — a są to zadania bardziej wymagające niż w przypadku zapytań tekstowych — będzie wymagała dużej ilości mocy obliczeniowych. Firma chce mieć pewność, że podoła i będzie w stanie zaspokoić te potrzeby.

Autor: Grzegorz Kubera, dziennikarz Business Insider Polska

Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Bądź na bieżąco! Obserwuj nas w Wiadomościach Google.

Źródło

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *