Forskare vid Microsoft har nu presenterat en ny text-till-tal AI, Vall-E, som baseras på Metas Encodec-teknik och som träffsäkert ska kunna simulera en persons fulla röst bara med hjälp av en tre sekunder lång ljudinspelning.

För att lyckas med detta har Vall-E tränats upp genom Metas ljudbibliotek Librilight som innehåller 60 000 timmar av engelskspråkigt material från 7000 olika talare. För att resultatet ska bli bra krävs det att ljudinspelningen i hög grad liknar en av en rösterna i träningsdatan.

Utöver att återge en rösts klangfärg och emotionella ton kan Vall-E också imitera olika akustiska miljöer och få rösten att låta som den exempelvis kommer från ett telefonsamtal.

Ars Technica skriver att forskarna tänker att Vall-E skulle kunna användas för text-till-tal-program, redigering av transkriberingar och för att skapa ljudinnehåll ihop med andra AI-modeller.

I skrivande stund har Microsoft inte några planer på att göra Vall-E tillgänglig att testa. Istället kommer företaget fokusera på att utveckla skyddsmetoder för att se till så tekniken inte kan missbrukas för att exempelvis otillåtet imitera någon.

Läs också: Microsoft på gång med jätteinvestering i Chat GPT-ägaren