Bliżej nieśmiertelności. Meta pokazała, jak sztuczna inteligencja może naśladować dowolny dźwięk – Tech – Science & Technology

Sztuczna inteligencja nauczy Cię mówić w językach obcych. Metal jest uważany za najlepszy system zamiany tekstu na mowę. Może utworzyć kopię dźwięku z krótkiego, kilkusekundowego nagrania.

Sztuczna inteligencja potrafi wiele. Na przykład przeczytaj tekst w różnych językach. Meta (firma macierzysta Facebooka) posunęła się nawet do tego, że nauczyła sztuczną inteligencję czytać tekst w różnych językach z wyjątkową dokładnością. I nie tylko to. Nowy konwerter tekstu na mowę, Voicebox, może nawet naśladować dowolny głos za pomocą krótkiego, kilkusekundowego nagrania. Jeśli nie mówisz po angielsku, niemiecku, hiszpańsku lub polsku, możesz wykorzystać sztuczną inteligencję do nauczenia drugiego, wirtualnego „ja” czytania tekstu w języku innym niż Twój język ojczysty.

Bliżej nieśmiertelności?

Niektórzy powiedzieliby, że takie zaawansowane funkcje mogą uczynić osobę nieśmiertelną. Wyobraź sobie – jeśli masz stare nagrania zmarłego dziadka, dzięki sztucznej inteligencji możesz przywrócić go do życia i pozwolić mu wieczorami czytać bajki swoim dzieciom. Może to być naciągane, ale Meta twierdziże jego generator dźwięku jest najlepszy na rynku. Mówi się, że Voicebox jest tak zaawansowany, że może generować dźwięk tak łatwo i szybko, jak ChatGPT może generować tekst i obrazy Dall-E.

„Dzięki uczeniu się kontekstowemu Voicebox może syntetyzować mowę w dowolnym stylu głosowym, używając jako wejścia głosu referencyjnego żądanego stylu i docelowego tekstu do syntezy. Wygenerowana mowa brzmi zgodnie z głosem referencyjnym, w tym ze wszystkimi jego cechami”. wyjaśniać Meta. Mówiąc najprościej, wystarczy krótkie nagranie, aby system uczący się wytworzył niemal identyczny dźwięk i intonację, jak przy czytaniu dłuższego tekstu. Meta nie udostępniła jeszcze publicznie narzędzia, ale na stronie projektu pokazała, do czego zdolna jest jej sztuczna inteligencja.

„Nauczy” Cię również mówić w językach obcych

Oprócz naśladowania dźwięku, Voicebox może usuwać z nagrania hałas, szczekanie psa lub inne przeszkadzające elementy. Może również edytować samą treść. Na przykład, jeśli oryginalne nagranie wydaje się zagmatwane. Voicebox może edytować zawartość nagrania bez konieczności ponownego nagrywania przez osobę. Może również obsługiwać przesyłanie dźwięku i tekstu między różnymi językami. „Na przykład możliwe jest stworzenie nagrania w języku angielskim za pomocą polecenia w języku francuskim. Pewnego dnia każdy z własnym głosem będzie mógł mówić w dowolnym języku” — dodaje Meta, która wykorzystała do 60 000 godzin angielskich audiobooków i 50 000 godzin audiobooków w pięciu innych językach – niemieckim, hiszpańskim, portugalskim, polskim i francuskim. . Naukowcom udało się również zmniejszyć liczbę błędów podczas poprawnego czytania słów i zdań z 10,9% do 5,2%.

Ida Richards

„Total twitterowy guru. Maven zombie. Myśliciel przez całe życie. Hardcore alkoholowy ninja. Przyszły idol nastolatków”.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *