Joi, cercetătorii Microsoft a anunțat un nou model de inteligență artificială (AI) numit VALL-E, care poate imita cu acuratețe o voce umană atunci când i se oferă o probă audio de trei secunde. Odată ce învață o anumită voce, VALL-E poate sintetiza sunetul acelei persoane care spune orice, păstrând în același timp tonul emoțional al vorbitorului.
Autorii săi sugerează că VALL-E poate fi folosit pentru editare text-to-speech, de înaltă calitate, unde înregistrarea unei persoane poate fi editată și modificată dintr-o transcriere text (făcându-i să spună lucruri pe care nu le-au spus inițial) și pentru crearea de conținut audio combinat cu alte modele AI generative, cum ar fi GPT-3.
Microsoft numește VALL-E un „Model de limbaj de codec neuronal” și se bazează pe o tehnologie numită EnCodec pe care Meta a anunțat-o în octombrie 2022. Spre deosebire de alte metode text-to-speech, care sintetizează de obicei vorbirea prin manipularea formelor de undă, VALL-E generează audio discret. coduri de codec din mesaje text și acustice. Practic analizează cum sună o persoană, descompune acele informații în componente discrete (numite „tokens”) datorită EnCodec și folosește datele de antrenament pentru a se potrivi cu ceea ce „știe” despre cum ar suna acea voce dacă ar rosti alte fraze în exterior. din proba de trei secunde.
Microsoft a antrenat capabilitățile de sinteză a vorbirii ale VALL-E pe o bibliotecă audio compilată de Meta numită LibriLight. Conține 60 de ore de emisiuni în limba engleză de la peste 7 de cranici, în mare parte preluate din cărți audio LibriVox disponibile public.
Pe lângă păstrarea timbrului vocii și a tonului emoțional al crainicului, VALL-E poate simula și „mediul acustic” al probei audio. De exemplu, dacă eșantionul a fost obținut dintr-o conversație telefonică, ieșirea audio sintetizată va simula proprietățile acustice și de frecvență ale conversației telefonice. De asemenea, mostre Microsoft demonstrează că VALL-E poate genera variații de timbru vocal.
Poate datorită capacității VALL-E de a facilita frauda și înșelăciunea, Microsoft nu a furnizat codul VALL-E pentru ca alții să-l experimenteze, așa că nu vom putea testa capacitățile acestuia. Cercetătorii par să fie conștienți de potențialul rău social pe care l-ar putea aduce această tehnologie. În încheierea articolului, ei scriu:
„Deoarece VALL-E poate sintetiza vorbirea care păstrează identitatea vorbitorului, poate prezenta riscuri potențiale de abuz de model, cum ar fi falsificarea identificării vocale sau uzurparea identității unui anumit vorbitor. Pentru a reduce astfel de riscuri, va fi construit un model de recunoaștere pentru a distinge dacă un clip audio a fost sintetizat folosind VALL-E.”
Poți ajuta Ucraina să lupte împotriva invadatorilor ruși. Cel mai bun mod de a face acest lucru este să donați fonduri Forțelor Armate ale Ucrainei prin intermediul Salveaza viata sau prin pagina oficiala NBU.
Citeste si:
- Codul scris de inteligența artificială poate fi periculos
- Experții avertizează: în curând inteligența artificială va fura inteligența