Des nouvelles du laboratoire de recherche ouverte Kyutai, foncé en novembre 2023. Développé « from scratch », son assistant Moshi est dotée d’une fonction de synthèse vocale très réactive et capable de fidèlement reproduire des intonations humaines. Derrière celui-ci se trouve Helium, un modèle de langage multimodal qui comporte 7 milliards de paramètres. En parallèle, les chercheurs ont développé une solution de watermarking et planchent sur l’aptitude du modèle à prédire et générer la suite d’un segment audio.

A lire aussi : AMD équipe l'Apple Mac Pro de la carte 3D « la plus puissante du monde »