„Nie zapomnieliśmy o Polsce”. ElevenLabs zapewni dodatkowy zarobek twórcom treści i wiele miejsc pracy [WYWIAD]

Maciej Mylik, VP of Finance, oraz Kamil Sołdacki, Audio Director w ElevenLabs, odpowiadają na pytania, czy AI odbierze pracę lektorom, czy należy oznaczać treści wygenerowane z pomocą AI, oraz dzielą się planami rozwoju polskiego oddziału w Warszawie. „Wracamy do korzeni i nigdy nie zapomnieliśmy o Polsce”.

C1e230a6015bc938189f32cef0506233, Biznes Fakty
Od lewej: Maciej Mylik, VP of Finance, oraz Kamil Sołdacki, Audio Director w ElevenLabs | Foto: Mat. prasowe/mat. własne
  • ElevenLabs rozwija technologię audio AI, umożliwiając lokalizację treści w wielu językach i oferując lektorom możliwość generowania dodatkowego dochodu pasywnego
  • Firma wprowadza zaawansowane zabezpieczenia, takie jak Voice Captcha, by zapobiegać nadużyciom, w tym tworzeniu deep fake’ów
  • Rozwój w Polsce obejmuje utworzenie hubu AI w Warszawie oraz współpracę z lokalnymi aktorami i instytucjami edukacyjnymi
  • ElevenLabs otrzymała nagrodę Business Insider Awards 2024 w kategorii AI
  • Więcej informacji o biznesie znajdziesz na stronie Businessinsider.com.pl

Grzegorz Kubera, Business Insider Polska: Niedawno aktor Ben Affleck na konferencji Delivering Alpha 2024 w ciekawy sposób skomentował wykorzystanie sztucznej inteligencji w sektorze filmowym. Powiedział m.in., że AI znacznie obniży koszty związane z tworzeniem efektów wizualnych i być może nie trzeba 1000 ludzi, aby wyrenderować jakiś materiał wideo. AI ma obniżyć próg wejścia, pozwolić innym, znacznie mniejszym filmowcom na tworzenie lepszej jakości materiałów i sprawić, że więcej osób zyska możliwość wyrażenia swoich pomysłów na wideo. Wy robicie coś podobnego, ale w sektorze audio. Za ułamek ceny można dodać lektora do jakiegoś nagrania czy stworzyć audiobooka. Jaka jest wizja ElevenLabs? Czy to demokratyzacja audio?

Maciej Mylik, VP of Finance w ElevenLabs: Mamy jasny plan. Chcemy umożliwić interakcje w wielu językach, właściwie we wszystkich, w których to możliwe i demokratyzować dostęp do technologii audio. Chcemy, żeby możliwości związane z nagrywaniem audio były szerzej dostępne dla wszystkich, ale też podkreślam, że nie zależy nam na tym, aby wypierać z rynku inne rozwiązania. Uważamy po prostu, że im tańsza będzie ta technologia, tym niższy będzie próg wejścia i będzie używana przez o wiele więcej osób, w zupełnie nowych obszarach. Zakładamy też, że dzięki temu — całościowo patrząc — wydatki na audio będą też rosnąć i cały rynek się powiększy. Obniży się za to koszt jednostkowy, związany z produkcją pojedynczego materiału.

Kamil Sołdacki, Audio Director w ElevenLabs: Na świecie obecnie lokalizuje się mniej niż połowę produkowanych treści. Dzięki technologii takiej, jak nasza, będą mogły być szybko dostępne w wielu językach, co sprawi, że wiele osób będzie miało dostęp do treści bez barier językowych, a to było wcześniej niemożliwe, bo nieopłacalne dla autorów oryginalnego materiału. Poszerzą się granice w kontekście wyobraźni, zabawy, przyjemności. Zapewniamy ludziom nowoczesne narzędzia i to od nich zależy, jak zechcą z nich korzystać.

Na przykład do tworzenia deep fake’ów, gdzie ktoś podrabia głos znanej osoby?

Maciej Mylik: Obawiamy się deep fake’ów jako takich, bo jest to coś, co zdecydowanie określamy jako największe ryzyko związane z technologią AI, jaką rozwijamy. I to nie jest tylko ryzyko dla osób, których głos zostanie ewentualnie podrobiony i wykorzystany bez ich wiedzy, ale też ryzyko reputacyjne dla nas jako firmy. Nie możemy sobie pozwolić na to, żeby nasze narzędzia były używane w zły sposób, bo to byłby koniec naszego biznesu.

Po pierwsze jako firma dużo inwestujemy w rozwiązania przeciwdziałające deep fake’om. W moderację treści, w mechanizmy, które pozwalają na weryfikowanie głosu danej osoby, tzw. Voice Captcha, co pozwala właścicielom danego głosu potwierdzać, że faktycznie to oni stoją za danym nagraniem, i jesteśmy też maksymalnie transparentni w kontekście tego, że dana treść pochodzi od ElevenLabs. Na naszą stronę można wgrać dowolny klip audio i nasz klasyfikator odpowie, czy był on stworzony przez naszą technologię, czy nie. Mamy więc świadomość zagrożeń deep fake i staramy się im mocno przeciwdziałać.

94b11e99ca6e221d1302204d25d921b3, Biznes Fakty
Biuro ElevenLabs w Londynie | mat. prasowe

Jednocześnie nie wszystkie firmy czy projekty open source, które zapewniają technologie do tworzenia materiałów audio, stosują czy będą stosowały podobne mechanizmy zabezpieczające. Dlatego naszym zadaniem jest też edukowanie ludzi, by każdy wiedział, jak sprawdzać autentyczność nagrań i dlaczego warto to robić. Podobnie działamy z naszymi partnerami, sugerując im, w jaki sposób mogą sprawdzać treści, z jakich korzystają.

Dzisiaj tworzenie deep fake’ów, aby podszywać się pod kogoś innego, jest z naszym narzędziem ekstremalnie trudne — a nawet prawie niemożliwe. Ale to ciągle poważne zagrożenie i ważne jest, aby o nim mówić i budować świadomość wśród ludzi. To część biznesu AI, która nie zniknie. Zależy nam więc, aby edukować społeczeństwo w tym zakresie.

Kamil Sołdacki: Potencjał deep fake’ów jest dziś na pewno większy w sytuacji osób, które nie są znanymi politykami, celebrytami, sportowcami czy miliarderami. Już teraz blokujemy reprodukcję głosów znanych postaci. Więc tak naprawdę edukacja, o której wspomina Maciek, dotyczy przede wszystkim ludzi takich jak my, którzy muszą mieć świadomość, jakie ryzyka są związane z technologiami AI w segmencie audio i wideo.

Czy ElevenLabs odbierze pracę lektorom?

Deep fake to jedno. Drugim zagrożeniem jest sama rywalizacja AI ze specjalistami. Co ma zrobić lektor, który poświęcił lata na budowanie portfolio, pracy nad dykcją i barwą głosu, a teraz pojawiła się technologia, która o wiele taniej może robić to samo? Powinien szukać sobie innego zajęcia?

Maciej Mylik: Uważam, że nasza technologia jest dużo większą szansą niż zagrożeniem. Sytuacja przypomina początki telewizji, którą studia filmowe uznawały za zagrożenie i zabraniały swoim aktorom występowania na małym ekranie.

Jak to się skończyło? Zawód aktora jest otwarty dla dużo większej liczby osób, ich zarobki poszybowały w górę, nie mówiąc o wzroście liczby widzów oraz przychodach z box office.

Podobnie jest z nami. Jesteśmy absolutnie i w 100 proc. za tym, żeby zacieśniać współpracę z aktorami głosowymi i żeby ona była jak najbliższa. Jednocześnie uważamy, że dany aktor de facto multiplikuje niemal w nieskończoność możliwość dotarcia do odbiorców, czyli robi coś, na co wcześniej nie było go stać. Bardzo dobrym przykładem na to jest nasz Voice Marketplace, gdzie każdy profesjonalny aktor może udostępnić swój sklonowany głos. Mamy też odpowiednie oznaczenia dla głosów, które są wysokiej jakości i zostały nagrane w staranny sposób. Zaczęliśmy rozwijać tę platformę od początku roku i już wypłaciliśmy ponad milion dol. aktorom głosowym. Licencjonujemy też podstawowe głosy dostępne w ElevenLabs oraz głosy niektórych znanych osób, dostępne w ElevenReader, które po prostu kupujemy.

Zanim zapytam jeszcze Kamila o zdanie, co dzieje się w przypadku, gdy ktoś faktycznie używa mojego udostępnionego głosu? Czy dostaję jakieś powiadomienie? Czy mogę przesłuchać dane nagranie i stwierdzić, że chcę lub jednak nie chcę użyczać mojego głosu dla danej treści?

Maciej Mylik: Mamy opcję włączenia lub wyłączenia moderacji i możemy też ustawić odpowiednie kryteria, gdzie np. blokujemy dostęp do naszego głosu dla wybranego rodzaju treści. W przyszłości będziemy te opcje jeszcze poszerzać, aby zapewniały jeszcze głębsze możliwości kontroli, w tym to, o czym wspominasz: dany użytkownik będzie mógł przesłuchać i zaakceptować lub odrzucić indywidualne nagrania.

Kamil Sołdacki: Sam byłem w swojej karierze głosem kilku dużych marek w kampaniach reklamowych. Mam też na koncie kilka audiobooków. Z ciekawości sklonowałem swój głos, który od tego czasu cały czas generuje dodatkowe przychody. To tzw. dochód pasywny. Nie muszę nic nagrywać i poświęcać czasu na to, aby zapoznać się z materiałem — platforma użycza mojego głosu i z tygodnia na tydzień, z miesiąca na miesiąc ten dodatkowy dochód jest większy. Warto więc spojrzeć na to również w ten sposób: lektorzy zyskają dostęp do dodatkowego, pasywnego dochodu.

85ad6e623ff3b62859b54b20512ef308, Biznes Fakty
Biuro ElevenLabs w Londynie | mat. prasowe

Zachęcam, aby osoby, które obawiają się o swoją pracę, zaczęły traktować ElevenLabs jako narzędzie i zastanowiły się, w jaki sposób to narzędzie wykorzystać, aby zmultiplikować siebie, swoje zarobki, swoją obecność i być może stać się przy tym wszystkim jeszcze bardziej rozpoznawalnym dzięki obecności swojego polskiego głosu także za granicą.

Czy niektórzy profesjonalni lektorzy już z wami współpracują?

Kamil Sołdacki: Tak i nierzadko tworzą tzw. alter ego. Wyobraźmy sobie profesjonalistę po szkole teatralnej czy aktorskiej, który jest już znany ze swojego głosu i konkretnego stylu. Na potrzeby ElevenLabs może np. nagrać głos, ale inaczej niż za zwyczaj. Może mówić bardziej energicznie lub wolniej, głośniej lub ciszej i stworzyć po prostu nowy rodzaj performance’u, z jakiego wcześniej nie był znany. Dzięki temu może nadal czytać materiały tak, jak robił to do tej pory, ale też może równolegle dodatkowo zarabiać, udostępniając swój głos w innym wydaniu. To jest kolejna możliwość, jaką zapewnia nasza technologia.

Nie można też nie wspomnieć o znoszeniu bariery językowej. ElevenLabs obsługuje obecnie ponad 30 języków. To oznacza, że jeśli np. Polak sklonuje swój głos w profesjonalny sposób, dostarczając próbki wysokiej jakości, to jest on potem dostępny w tych wszystkich językach dla klientów platformy. Nagle może się okazać, że barwa głosu danej osoby nie podoba się w jednym kraju, a w innym zyskała ogromną liczbę fanów. Mniej znany lektor z Polski może stać się gwiazdą np. w Indiach. To ogromny potencjał, bo zyskujemy dostęp do globalnego rynku.

Łatwiejsza edycja oraz przełom w edukacji

Wiem, że sporo aktorów głosowych już korzysta z ElevenLabs. Czy są jeszcze inne grupy osób, które sięgają po AI w kontekście audio?

Kamil Sołdacki: Często używają naszej technologii również studia zajmujące się postprodukcją. Załóżmy, że aktorowi w trakcie nagrania na planie filmowym wypiął się mikroport i nie udało się nagrać jednej, ważnej kwestii. Albo powiedział coś niewyraźnie lub akurat w tle coś spowodowało nieprzewidziany hałas. Do tej pory przy tego typu scenariuszach należało znaleźć miejsce w kalendarzu aktora, aby mógł „dograć” brakujący fragment. Trzeba było przyjechać, zorganizować studio, sprzęt, itd. Wymagało to sporo czasu i zaangażowania. Obecnie to już przeszłość. Bez problemu wprowadzimy takie drobne zmiany w nagraniach przy pomocy rozwiązań ElevenLabs. Można np. sklonować fragment głosu czy brakujące słowo albo poprawić dykcję w zasadzie paroma kliknięciami. Zajmie to minutę, dwie, pięć — obojętnie, ale na pewno jest to o wiele tańsze i szybsze w porównaniu do organizowania całego środowiska, żeby zrealizować nagranie w podobnych warunkach, jak na planie zdjęciowym. Coraz więcej studio postprodukcji dźwięku zachęca aktorów do zgody na ten rodzaj poprawek w dialogach filmowych.

A czy ta demokratyzacja nie doprowadzi przypadkiem do tego, że zaleją nas treści audio o kiepskiej jakości, bo nagle każdy będzie mógł z łatwością wydać audiobooka czy nagrywać podcasty? Czy przez to, że obniżycie próg wejścia, otworzycie tym drzwi dla osób, które nie powinny zajmować się nagraniami audio, bo — choć zabrzmi to brutalnie — nie potrafią stworzyć niczego wartościowego? To może sprawić, że będzie nam coraz trudniej dotrzeć do materiałów faktycznie jakościowych, które warto przesłuchać.

Maciej Mylik: Nie wiem, czy tak do końca się zgodzę z tym, że demokratyzując samo audio, wywołamy zalew treści. Wydaje mi się, że to już nastąpiło gdy, powstał YouTube i tam mamy dziś bardzo dużo filmów, gdzie jedne są lepsze, a inne dużo gorsze. Przy czym możliwości produkcyjne danego twórcy nie gwarantują wysokiej wartości samej treści.

Nasza technologia podniesie jakość treści w warstwie technicznej. Dziś mamy wiele nagrań, które są wartościowe, ale zanieczyszczone przez szum i odgłosy tła, z robotycznym dźwiękiem lub nagrane słabej jakości mikrofonem, co sprawia, że są niezrozumiałe podczas odtwarzania.

Kamil Sołdacki: Dodam tu pewną ciekawostkę. Mam przyjaciela z Florydy, niesamowitego profesora, który udziela się edukacyjnie i społecznie, i w tym roku wybrał się do Nepalu w kontekście swoich działań edukacyjnych. Do tej pory zawsze miał nie lada problem, bo musiał tłumaczyć swoje nagrane wcześniej treści na różne języki, co bywało trudne zwłaszcza w krajach, gdzie nawet znajomość angielskiego jest mocno ograniczona. Musiał więc szukać tłumacza, który będzie w stanie tłumaczyć jego wykłady. Obecnie to nie problem. Możliwości ElevenLabs pozwalają na to, aby szybko lokalizować treści na wybrane języki, dodając lektora czy dubbing. To ma ogromną wartość dla edukacji, bo nasz zasięg i możliwość dotarcia z przekazem znacznie się rozszerza.

Etyka AI oraz finanse od najlepszych funduszy venture capital

Jeśli stworzymy nagranie wysokiej jakości, gdzie jakość audio jest świetna i całość brzmi naturalnie, to czy takie nagrania mimo wszystko powinniśmy oznaczać, że są wygenerowane z użyciem sztucznej inteligencji?

Maciej Mylik: Nie widzę powodu, abyśmy mieli się jakoś bronić przed tym, że coś zostało wygenerowane przez AI. Dochodzę wręcz do wniosku, że powinniśmy oznaczać treści generowane z pomocą AI, bo to pokaże, ile dobrych treści można stworzyć ze wsparciem AI i pozwoli zbudować odpowiednią percepcję tej technologii.

Musimy być transparentni, jak tylko się da, żeby oswoić społeczeństwo z tą technologią. Inaczej, jeśli nie będziemy oznaczać pojedynczych czy większości treści, to tylko te złe, typu deep fake, będą nagłaśniane przez media i stworzy się takie wrażenie, że AI generuje tylko te złe rzeczy.

Kamil Sołdacki: Osobiście preferowałbym, aby podobna informacja znajdowała się na końcu danej treści. W tym aspekcie lubię być zaskakiwany. Jeśli informacja o AI pojawi się na samym początku, od razu będziemy doszukiwać się jakiejś dziury w całym. Jeśli natomiast przesłuchamy czegoś, co jest wysokiej jakości, a na końcu dowiemy się, że materiał powstał przy użyciu AI, to możemy być pozytywnie zaskoczeni jakością technologii i samego nagrania. Sam, gdy dowiaduję się, że nagranie, które zdążyłem przesłuchać, zostało wygenerowane przez AI, zawsze jestem pod wrażeniem.

Jednocześnie podzielam zdanie Maćka, że dodawanie informacji o tym, że coś zostało wygenerowane przez AI, jest formą edukacji. Wzrośnie wówczas świadomość wszystkich dookoła i zaczniemy bardziej przyzwyczajać się do treści opracowywanych z udziałem AI.

Przejdźmy do finansów. Firma istnieje od 2022 r. i pozyskała już ponad 100 mln dol., między innymi od takich funduszy jak Sequoia Capital i Andreessen Horowitz. Czy to było trudne? I czy fakt, że rozwijacie start-up AI, pomógł w pozyskaniu pieniędzy?

Maciej Mylik: To, że rozwijamy AI, nie pomaga samo w sobie. Kiedy założyciele ElevenLabs, Mati Staniszewski i Piotr Dąbkowski, zbierali pierwszą, zalążkową rundę finansowania w 2022 r., produkt był ciągle w fazie prototypu. Mati z Piotrkiem musieli dzielić się wizją przyszłości i tym, czym ostatecznie będzie ta platforma. Przekonywanie inwestorów nie było łatwe, ale ostatecznie się udało, a finansowanie zapewnili polscy aniołowie biznesu i czeski fundusz Credo Ventures. Dodam jednak, że wielu inwestorów ignorowało ElevenLabs, co oczywiście było na tym etapie zrozumiałe — był to ciągle produkt bez walidacji rynkowej.

Później, w styczniu 2023 r., wyszliśmy z naszym rozwiązaniem do ludzi i narzędzie stało się dostępne dla wszystkich. Praktycznie natychmiast stało się viralem i wszystkie liczby, jakie mogliśmy mierzyć, lawinowo wzrosły — od przychodów po liczbę użytkowników. To był moment, kiedy wpadliśmy na radar wspomnianych przez ciebie funduszy.

I potem poszło już z górki?

Maciej Mylik: Zdecydowanie nie było łatwo, ale założyciele ElevenLabs stworzyli też świetne wrażenie, które mówiło tym największym graczom, że nie są jedynymi, którzy się nami interesują. Grali trudnych do zdobycia i fundusze zobaczyły, że jeśli nie zdecydują się na współpracę, szybko stracą szansę. Zdecydowali się więc na domknięcie transakcji.

Czy fundusze takie jak Sequoia Capital i Andreessen Horowitz to rzeczywiście smart money? Czy faktycznie poza pieniędzmi zapewniają dodatkowe wsparcie?

Maciej Mylik: Wsparcie, jakie otrzymujemy, jest olbrzymie i zdecydowanie nie są to tylko pieniądze. W przypadku tych funduszy finanse to naprawdę kwestia drugorzędna. To rzeczywiście jest smart money — mają one cały sztab ekspertów praktycznie na każdy temat, z każdej dziedziny. Możemy się do nich odezwać na Slacku czy WhatsAppie i dostać konkretne porady, czy to w zakresie zatrudniania ludzi, strategii wejścia na dany rynek, czy budowania operacji wewnątrz firmy. Mamy dostęp do ludzi, którzy już to wszystko zrobili, widzieli w kilkudziesięciu, jeśli nie kilkuset firmach, i są w stanie przekazywać najlepsze praktyki. Zapewniają nam kontakt do innych firm, potencjalnych klientów, i pomagają nam w codziennych zadaniach. Jest to ogromna wartość i być może nawet większa niż gotówka, którą się od nich dostaje.

Rozwój ElevenLabs w Polsce

Czy decyzja na to, aby wejść teraz do Polski, też była konsultowana z inwestorami?

Maciej Mylik: To nie jest tak, że my dopiero wchodzimy do Polski. My tak naprawdę nigdy z Polski nie wyszliśmy. Mati i Piotrek są Polakami, wychowali się w Warszawie, wyjechali na studia i później do pracy. Ale duża część początków firmy rozgrywała się w Polsce. To tutaj się uczyliśmy i to tutaj powstały zalążki tego biznesu. To taki powrót do korzeni. Pamiętamy o Polsce i ona jest bardzo ważną częścią naszego DNA.

Ale też liczycie na to, że uda się u nas zdobyć świetnych ekspertów.

Maciej Mylik: Zdecydowanie. Także na Zachodzie widać, że w Polsce jest olbrzymia liczba do specjalistów, szczególnie ze strony inżynierskiej i researchowej. Często ci specjaliści emigrują i uciekają nam z Europy, czy to do takich firm jak OpenAI, czy do innych amerykańskich spółek. My chcemy być dla nich alternatywą: nadal jesteśmy firmą działającą globalnie, nadal robimy świetne rzeczy, nadal możemy płacić tak, jak amerykańskie biznesy, ale mimo wszystko możesz zostać tutaj, w Polsce, gdzie czujesz się najlepiej — w swoim kraju.

Czyli raczej wasza decyzja, a nie rekomendacja inwestorów?

Maciej Mylik: Tak, to jest przemyślany ruch biznesowy, skupiający się na pozyskaniu świetnego talentu tutaj, lokalnie. I jest to ruch motywowany wewnętrznie i naszą analizą tego, gdzie faktycznie można znaleźć najlepszych ekspertów, oraz tym, gdzie możemy się nadal rozwijać. Tutaj nie było większego wpływu inwestorów ani w jedną, ani w drugą stronę.

Kamil Sołdacki: Fakt, że jesteśmy i działamy w Polsce, pozwoli nam też więcej mówić o różnych współpracach lokalnych, które tak naprawdę dzieją się od samego początku istnienia firmy, tylko działając w globalnej skali, nie było za wiele przestrzeni, żeby o tym szeroko komunikować. Teraz będzie o wiele więcej szans na to, aby mówić o współpracy z polskimi aktorami, lektorami, z firmami, z usługodawcami technologicznymi czy jeszcze innymi organizacjami z Polski.

Jakie są zatem najbliższe plany na działania w Polsce?

Maciej Mylik: Otwieramy naszą europejską siedzibę w Warszawie, gdzie stworzymy hub AI, w którym będziemy zatrudniać wiele osób. Już niebawem, może w grudniu, może na początku stycznia, będziemy mogli już działać. Z tym oczywiście związane są plany rekrutacyjne. Chcemy zatrudnić w ciągu kilku lat kilkadziesiąt osób do budowy centrum R&D. Jesteśmy i będziemy też partnerami licznych olimpiad matematycznych i konkursów dla uzdolnionych programistów i inżynierów. Chcemy też współpracować z uniwersytetami. To jest jedna część.

A druga?

Maciej Mylik: Druga jest taka, że chcemy coraz szerzej działać w polskim ekosystemie — wiązać się z lokalnymi aktorami, lektorami, twórcami i naszą technologię pokazywać tutaj, na miejscu. Jest to więc miks wspierania i współpracy z ekosystemem, ale też budowy firmy jako takiej. Po prostu kolejnego fizycznego miejsca oprócz Londynu i Nowego Jorku, gdzie już jesteśmy.

Dopuszczacie pracę zdalną?

Maciej Mylik: Praca zdalna jest sercem naszej pracy. Mamy dzisiaj w firmie nieco ponad 100 osób i one są rozsiane w ponad 20 krajach. My nie pytamy poszczególnych osób o to, gdzie mieszkają. Najpierw pytamy, co potrafią i co chcą robić, a miejsce na globusie jest wtórne. Jeśli ktoś chce, mamy trzy biura — Londyn, Nowy Jork i przede wszystkim Warszawa — ale absolutnie nie oczekujemy, że te osoby będą się w nich pojawiać. Tak funkcjonujemy od początku i działa to bardzo dobrze.

— Rozmawiał Grzegorz Kubera

Dziękujemy, że przeczytałaś/eś nasz artykuł do końca. Bądź na bieżąco! Obserwuj nas w Wiadomościach Google.

Źródło

No votes yet.
Please wait...

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *