Des nouvelles du laboratoire de recherche ouverte Kyutai, foncé en novembre 2023. Développé « from scratch », son assistant Moshi est dotée d’une fonction de synthèse vocale très réactive et capable de fidèlement reproduire des intonations humaines. Derrière celui-ci se trouve Helium, un modèle de langage multimodal qui comporte 7 milliards de paramètres. En parallèle, les chercheurs ont développé une solution de watermarking et planchent sur l’aptitude du modèle à prédire et générer la suite d’un segment audio.
A découvrir également : Trop jeune pour partir en retraite, France Travail vous paie le chômage