Gemini 3.5 Live Translate, vloeiende spraakvertaling tussen meer dan 70 talen

Stel je voor dat je een gesprek voert met iemand aan de andere kant van de wereld en jullie elkaar moeiteloos verstaan, terwijl ieder gewoon de eigen taal spreekt. Met Gemini 3.5 Live Translate komt dat scenario opvallend dichtbij. Het nieuwste audiomodel van Google vertaalt gesproken taal vrijwel in real time, in meer dan zeventig talen, met behoud van de intonatie, het tempo en de toonhoogte van de spreker. Geen robotachtige stem, geen ongemakkelijke pauzes, maar een vloeiende gesproken vertaling die slechts enkele seconden achterloopt op het origineel.

Wat Gemini 3.5 Live Translate anders maakt

De meeste vertaalsystemen werken volgens een beurt-om-beurt-principe. Je spreekt een zin uit, het systeem wacht tot je klaar bent, vertaalt en geeft de uitvoer terug. Dat werkt prima voor korte uitwisselingen, maar voelt onnatuurlijk in een echt gesprek of tijdens een vergadering waar mensen op elkaar reageren.

Gemini 3.5 Live Translate kiest een andere aanpak. Het model verwerkt spraak terwijl die binnenkomt en genereert continu vertaalde audio. Daarbij maakt het voortdurend een afweging tussen wachten op meer context voor betere kwaliteit en direct vertalen om in sync te blijven met de spreker. Het resultaat is een gesprek dat klinkt zoals een professionele tolk het zou doen, met de spreker een paar seconden vooruit en de vertaling die rustig meeloopt.

De automatische taaldetectie herkent meer dan zeventig talen zonder dat je vooraf iets hoeft in te stellen. En het model is gebouwd om tegen lawaai te kunnen. Een drukke straat, een rumoerig café of een vergaderzaal met achtergrondgeluiden vormen geen probleem.

Spraak naar spraak, met behoud van karakter

Een vaak onderschat aspect van vertalen is hoe iemand iets zegt. Een vraag klinkt anders dan een grap, en een ironische opmerking heeft een andere melodie dan een enthousiaste reactie. Klassieke vertaalmodellen verliezen die nuances vaak in de overgang van tekst naar spraak.

Gemini 3.5 Live Translate werkt direct van audio naar audio. De vertaalde stem neemt elementen over van hoe de oorspronkelijke spreker klinkt: het tempo, de pauzes, de klemtonen. Voor luisteraars voelt het daardoor minder als een tolk en meer als een echt gesprek. Die continuïteit is precies wat ontbreekt in eerdere generaties van vertaaltechnologie.

Drie manieren om het model te gebruiken

Google rolt Gemini 3.5 Live Translate uit via drie kanalen, elk gericht op een ander publiek.

Voor ontwikkelaars via de Gemini Live API

Ontwikkelaars krijgen toegang tot het model via de Gemini Live API en Google AI Studio in een publieke preview. Daarmee kunnen ze vertaal- en tolkfunctionaliteit inbouwen in hun eigen apps, of het nu gaat om meertalige klantenservice, livestreams, online lessen of dubbing van video. Platforms zoals Agora, Fishjam, LiveKit, Pipecat en Vision Agents bieden integraties aan die de complexe infrastructuur voor real-time media achter de schermen regelen. Ontwikkelaars hoeven zich dus geen zorgen te maken over streamingprotocollen of latentieoptimalisatie en kunnen zich richten op wat hun gebruikers nodig hebben.

Onder de motorkap werkt het model met een invoerlimiet van 131.072 tokens en een uitvoerlimiet van 65.536 tokens. Naast vertaalde spraak levert het ook een tekstuele transcriptie, wat handig is voor ondertiteling, archivering of zoekfunctionaliteit.

Voor bedrijven via Google Meet

Vergaderingen vormen een natuurlijke use case. Google Meet krijgt Gemini 3.5 Live Translate in private preview voor geselecteerde Workspace-klanten, met een bredere uitrol later dit jaar. De sprong in functionaliteit is fors. Waar de vorige versie van spraakvertaling in Meet beperkt was tot vijf talen en alleen vertaalde van en naar Engels, biedt de nieuwe versie meer dan tweeduizend talencombinaties binnen één vergadering.

Voor internationale teams betekent dat een fundamenteel andere manier van samenwerken. Een ontwerper in Tokio, een ontwikkelaar in São Paulo en een productmanager in Berlijn kunnen ieder hun eigen taal spreken en elkaar toch direct verstaan. De interface wordt bovendien aangepast zodat vertaling met één handeling beschikbaar is.

Voor iedereen via Google Translate

De brede consumentenversie komt beschikbaar via de Google Translate-app op Android en iOS. Met de Live-vertaalfunctie sluit je een willekeurige hoofdtelefoon aan en hoor je de vertaling met behoud van toon, in meer dan zeventig talen.

Voor Android-gebruikers introduceert Google ook een nieuwe luistermodus. Je houdt je telefoon tegen je oor zoals bij een gewoon telefoongesprek en de vertaalde audio komt direct uit de oorspeaker. Handig wanneer je geen hoofdtelefoon bij je hebt, of in situaties waarin je liever niet wilt dat anderen de vertaling meeluisteren. Denk aan een rondleiding in een museum, een korte ontmoeting onderweg of een gesprek met een lokale gids.

In de praktijk

Een interessante test komt van Grab, het zuidoost-Aziatische platform voor bezorging van eten. Chauffeurs en reizigers voeren via Grab maandelijks meer dan tien miljoen spraakoproepen, vaak in verschillende talen. De integratie van Gemini 3.5 Live Translate moet die afspraken bij ophaalpunten soepeler laten verlopen. Een chauffeur die alleen Bahasa Indonesia spreekt kan moeiteloos communiceren met een toerist die Japans of Duits spreekt, zonder dat een van beiden de app hoeft te verlaten.

Ook bedrijven als CJ ENM en LiveKit testen het model en wijzen op de combinatie van vertaalkwaliteit, nauwkeurigheid en lage latency. Die drie eigenschappen samen vormen de moeilijkste puzzel in spraakvertaling. Hoge kwaliteit vraagt meestal om wachten, lage latentie om snel beslissen, en accuraatheid om context. Gemini 3.5 Live Translate probeert die balans op te lossen door tijdens het spreken voortdurend bij te sturen.

Verantwoorde inzet en SynthID

Elke audio die het model genereert krijgt een onhoorbare watermerk mee via SynthID. Dat watermerk zit verweven in de uitvoer en zorgt ervoor dat AI-gegenereerde audio detecteerbaar blijft. Naarmate synthetische stemmen overtuigender worden, neemt het belang van zulke markers toe. Voor journalisten, platforms en eindgebruikers vormt het een controleerbare laag om desinformatie of misbruik tegen te gaan.

Waarom dit moment ertoe doet

Live spraakvertaling is niet nieuw. De drempel om het in te zetten is verlaagd. Met een API die de meeste talen automatisch herkent, een meet-integratie die duizenden talencombinaties aankan en een gratis app op je telefoon verschuift de vraag van “kan dit?” naar “waar gebruik ik het voor?”. Voor bedrijven met een internationale klantenkring, voor scholen met meertalige leerlingen, voor reizigers en voor wie simpelweg een gesprek wil voeren met een familielid in een andere taal verandert het rekensommetje.

Hoe vloeiend de vertaling ook klinkt, ze blijft een interpretatie. Idiomatische uitdrukkingen, culturele referenties en humor vertalen zich zelden perfect, ongeacht hoe geavanceerd het model is. Gemini 3.5 Live Translate verkleint de afstand tussen talen aanzienlijk, maar de fijne kneepjes van menselijk gesprek vragen nog altijd om aandacht van de sprekers zelf.