Metas forskningsavdelning har nu visat upp två nya generativa AI-verktyg som kan användas för att ta fram video och stillbilder, Emu Video och Emu Edit.
Emu Video förstår instruktioner genom text, bilder eller båda samtidigt. Användaren genererar först en bild utifrån textinstruktioner, och därefter en video utifrån både texten och den genererade bilden. Eftersom processen sker i två distinkta steg gör det möjligt att träna upp videogenerationen effektivt. Verktyget kan också generera video utifrån bilder som användaren själv lägger in och sedan redigerar med textinstruktioner.
Urvalet av videoresultat som Meta publicerat på sin blogg är betydligt mer högupplösta, mindre brusiga och mer sammanhängande än den video som tidigare varit möjlig att generera fram med AI. Än så länge kan Emu Video generera fyra sekunder långa klipp med en frekvens på 16 bildrutor per sekund och en upplösning på 512 x 512 pixlar. Videorna innehåller fortfarande tydliga tecken på att de tagits fram av AI.
Emu Edit är sedan ett bildgenereringsverktyg som kan redigera existerande bilders individuella element utifrån textinstruktioner. Snarare än att generera en helt ny bild utifrån nya instruktioner. Exempelvis kan användaren ta en bild på ett glas med apelsinjuice och enkelt byta ut juicen mot någon annan vätska.
Både Emu Video och Emu Edit är i dagsläget forskningsprojekt som inte är tillgängliga för allmänheten. När och om detta kan komma att ändras återstår att se.
Läs också: Studie - vita ansikten genererade av AI mer övertygande än fotografier