AI nou Microsoft poate imita vocea oricărei persoane

Joi, cercetătorii Microsoft a anunțat un nou model de inteligență artificială (AI) numit VALL-E, care poate imita cu acuratețe o voce umană atunci când i se oferă o probă audio de trei secunde. Odată ce învață o anumită voce, VALL-E poate sintetiza sunetul acelei persoane care spune orice, păstrând în același timp tonul emoțional al vorbitorului.

Autorii săi sugerează că VALL-E poate fi folosit pentru editare text-to-speech, de înaltă calitate, unde înregistrarea unei persoane poate fi editată și modificată dintr-o transcriere text (făcându-i să spună lucruri pe care nu le-au spus inițial) și pentru crearea de conținut audio combinat cu alte modele AI generative, cum ar fi GPT-3.

Microsoft numește VALL-E un „Model de limbaj de codec neuronal” și se bazează pe o tehnologie numită EnCodec pe care Meta a anunțat-o în octombrie 2022. Spre deosebire de alte metode text-to-speech, care sintetizează de obicei vorbirea prin manipularea formelor de undă, VALL-E generează audio discret. coduri de codec din mesaje text și acustice. Practic analizează cum sună o persoană, descompune acele informații în componente discrete (numite „tokens”) datorită EnCodec și folosește datele de antrenament pentru a se potrivi cu ceea ce „știe” despre cum ar suna acea voce dacă ar rosti alte fraze în exterior. din proba de trei secunde.

Microsoft a antrenat capabilitățile de sinteză a vorbirii ale VALL-E pe o bibliotecă audio compilată de Meta numită LibriLight. Conține 60 de ore de emisiuni în limba engleză de la peste 7 de cranici, în mare parte preluate din cărți audio LibriVox disponibile public.

Pe lângă păstrarea timbrului vocii și a tonului emoțional al crainicului, VALL-E poate simula și „mediul acustic” al probei audio. De exemplu, dacă eșantionul a fost obținut dintr-o conversație telefonică, ieșirea audio sintetizată va simula proprietățile acustice și de frecvență ale conversației telefonice. De asemenea, mostre Microsoft demonstrează că VALL-E poate genera variații de timbru vocal.

Poate datorită capacității VALL-E de a facilita frauda și înșelăciunea, Microsoft nu a furnizat codul VALL-E pentru ca alții să-l experimenteze, așa că nu vom putea testa capacitățile acestuia. Cercetătorii par să fie conștienți de potențialul rău social pe care l-ar putea aduce această tehnologie. În încheierea articolului, ei scriu:

„Deoarece VALL-E poate sintetiza vorbirea care păstrează identitatea vorbitorului, poate prezenta riscuri potențiale de abuz de model, cum ar fi falsificarea identificării vocale sau uzurparea identității unui anumit vorbitor. Pentru a reduce astfel de riscuri, va fi construit un model de recunoaștere pentru a distinge dacă un clip audio a fost sintetizat folosind VALL-E.”

Poți ajuta Ucraina să lupte împotriva invadatorilor ruși. Cel mai bun mod de a face acest lucru este să donați fonduri Forțelor Armate ale Ucrainei prin intermediul Salveaza viata sau prin pagina oficiala NBU.

Citeste si:

DzhereloArsTechnica

Inscrie-te

0 Comentarii

Recenzii încorporate

Vezi toate comentariile

Alte articole

AI nou Microsoft imită vocea oricărei persoane dintr-o probă audio de 3 secunde

Comentarii recente