OpenAI przedstawia narzędzie Voice Engine 2024

voice engine

OpenAI twierdzi, że sposoby weryfikacji zgody osób na imitację ich głosów przez sztuczną inteligencję oraz automatyczne wykrywanie fałszywych nagrań dźwiękowych z udziałem znanych osób powinny być wbudowane w powszechnie stosowane narzędzia do generowania „sztucznych głosów” Voice Engine

OpenAI w piątek ujawniło narzędzie do klonowania głosu, planują ścisłe kontrolowanie go, dopóki nie zostaną wprowadzone zabezpieczenia mające na celu zwalczanie fałszywych nagrań dźwiękowych przeznaczonych do oszukania słuchaczy.

Model o nazwie „Voice Engine” może zasadniczo zduplikować mowę osoby na podstawie 15-sekundowego próbnika dźwiękowego, według wpisu na blogu OpenAI, który udostępnił wyniki małoskalowego testu narzędzia.

„Firma z siedzibą w San Francisco uznaje, że generowanie mowy przypominającej głosy ludzi niesie ze sobą poważne ryzyko, szczególnie w roku wyborczym” – powiedziała firma.

„Angażujemy się w dialog z partnerami krajowymi i międzynarodowymi z różnych sektorów, w tym z rządu, mediów, rozrywki, edukacji, społeczeństwa obywatelskiego i innych, aby zapewnić uwzględnienie ich opinii podczas naszego procesu budowania.”

Badacze dezinformacji obawiają się rozpowszechnionego nadużycia aplikacji opartych na sztucznej inteligencji w przełomowym roku wyborczym, dzięki coraz powszechniejszym narzędziom do klonowania głosu, które są tanie, łatwe w użyciu i trudne do śledzenia.

Zdając sobie sprawę z tych problemów, OpenAI powiedział, że „podchodzi do szerszej publikacji
z ostrożnością i wiedzą z powodu potencjalnego nadużycia syntetycznego głosu.”

Ostrożne ujawnienie miało miejsce kilka miesięcy po tym, jak konsultant polityczny pracujący dla kampanii prezydenckiej demokratycznego rywala Joe Bidena przyznał się do stworzenia roboczego połączenia udającego prezydenta USA.

AI-generowany telefon, pomysł operacyjny dla kongresmana z Minnesoty, Deana Phillipsa, zawierał głos, który brzmiał jak Biden, namawiając ludzi do nieoddawania głosów w styczniowych prawyborach w New Hampshire.


Incydent wywołał niepokój wśród ekspertów, którzy obawiają się fali dezinformacji związanej z deepfake’ami w wyborach prezydenckich w 2024 roku w Białym Domu, jak również w innych kluczowych wyborach na całym świecie w tym roku.

OpenAI poinformowało, że partnerzy testujący Voice Engine zgodzili się na przestrzeganie zasad, w tym konieczność uzyskania jasnej i świadomej zgody każdej osoby, której głos jest kopiowany za pomocą narzędzia.

Dodatkowo, firma dodała, że ​​audytorium musi być jasno poinformowane, kiedy słyszy głosy generowane przez sztuczną inteligencję. „Mamy wprowadzone zestaw środków bezpieczeństwa, w tym znakowanie wodne w celu śledzenia pochodzenia każdego dźwięku wygenerowanego przez Voice Engine, a także aktywne monitorowanie jego użytkowania” – powiedział OpenAI.

Voice Engine wykorzystuje dane tekstowe i pojedynczy 15-sekundowy próbkowy fragment dźwięku, aby generować mowę o naturalnym brzmieniu, która dokładnie przypomina oryginalnego mówcę.

OpenAI nadal testuje narzędzie, a w swoim poście na blogu firma powiedziała, że partnerzy testujący Voice Engine zgodzili się na określone zasady, w tym na konieczność uzyskania wyraźnej i świadomej zgody każdej osoby, której głos jest kopiowany przy użyciu tego narzędzia. Firma podkreśliła, że sztucznie generowane głosy muszą być wyraźnie oznaczone dla widowni.

OpenAI współpracuje z grupą partnerów, aby przetestować przypadki użycia tej technologii. Oto kilka z nich, które firma do tej pory zidentyfikowała:

Wsparcie w czytaniu: To będzie dostarczane osobom nieumiejącym czytać oraz dzieciom, aby generować naturalnie brzmiące i emocjonalne głosy reprezentujące szerszy zakres mówców niż możliwe podczas nauki i
w placówkach edukacyjnych.

Tłumaczenie treści: Ma to umożliwić twórcom i firmom korzystającym z mediów takich jak filmy wideo i podcasty dotarcie do większej liczby ludzi na całym świecie w ich własnych głosach. Voice Engine będzie zachowywać rodzimy akcent oryginalnego mówcy

Niebezpieczeństwo czyha

OpenAI stwierdziło, że „podejmuje ostrożne i uzasadnione podejście do szerszego udostępnienia z uwagi na potencjalne nadużycia syntetycznego głosu.”

W roku wyborczym wykorzystanie sztucznej inteligencji do szerzenia dezinformacji poprzez deepfake’i, zagrożenie zwiększone przez wirusową technologię Generative AI, jest powszechne.

Zdając sobie z tego sprawę, firma powiedziała: „Rozumiemy, że generowanie mowy, która przypomina głosy ludzi, niesie za sobą poważne ryzyko, które szczególnie spędza sen z powiek w roku wyborczym…”

Podsumowując, OpenAI podejmuje ostrożne działania w kontekście udostępnienia swojego narzędzia do klonowania głosu ze względu na realne ryzyko jego nadużycia. W szczególności w kontekście wyborów, potencjalne wykorzystanie sztucznej inteligencji do generowania fałszywych nagrań głosowych stwarza poważne zagrożenie dla rzetelności informacji.

Firma podejmuje środki bezpieczeństwa, takie jak wymaganie wyraźnej zgody osób, których głosy są klonowane, oraz oznaczanie wygenerowanych głosów jako sztuczne. Dążenie do bezpiecznego i odpowiedzialnego wykorzystania tej technologii stanowi ważny element procesu opracowywania i testowania narzędzi AI przez OpenAI.

Zapraszam serdecznie na mój profil na Twitterze możemy się skontaktować!
Zapraszam również na mój poprzedni artykuł o tym jak AI wpłynie na miejsca pracy Zobacz