Monimutkaisissa ympäristöissä ihmiset ymmärtävät puheen merkityksen paremmin kuin tekoäly, koska käytämme paitsi korviamme myös silmiämme.
Näemme esimerkiksi jonkun suun liikkuvan ja voimme intuitiivisesti tietää, että kuulemamme äänen täytyy olla peräisin kyseiseltä henkilöltä.
Meta AI työskentelee uuden AI-dialogijärjestelmän parissa, jonka tarkoituksena on opettaa tekoäly oppimaan myös tunnistamaan hienovaraisia korrelaatioita keskustelussa näkemän ja kuuleman välillä.
VisualVoice oppii samalla tavalla kuin ihmiset oppivat hallitsemaan uusia taitoja, mikä mahdollistaa audiovisuaalisen puheen erottamisen oppimalla visuaalisia ja kuulomerkkejä merkitsemättömistä videoista.
Koneille tämä luo paremman käsityksen, kun taas ihmisen havainnointi paranee.
Kuvittele, että voisit osallistua ryhmäkokouksiin metaversumien kollegoiden kanssa eri puolilta maailmaa, liittyä pienempiin ryhmäkokouksiin heidän liikkuessaan virtuaalitilassa, jonka aikana kohtauksen äänikaiut ja sointisävyt toimivat ympäristön mukaan Säädä sen mukaan.
Toisin sanoen se voi hankkia ääni-, video- ja tekstitietoja samanaikaisesti, ja sillä on rikkaampi ympäristön ymmärtämismalli, jonka avulla käyttäjät voivat saada "erittäin vau" äänikokemuksen.
Postitusaika: 20.7.2022