Audiosegmentatie on the rocks
Meta heeft met SAM Audio een baanbrekend AI-model gelanceerd dat de manier waarop we met geluid omgaan fundamenteel verandert. Net zoals het originele Segment Anything Model (SAM) een revolutie teweegbracht in beeldverwerking, brengt SAM Audio nu dezelfde innovatie naar de wereld van audio. Het model maakt het mogelijk om elk geluid uit complexe audiomengsels te isoleren met behulp van natuurlijke prompts zoals tekst, visuele aanwijzingen of tijdsmarkeringen.
Stel je voor: je neemt een video op van je favoriete band en met één klik isoleer je het geluid van de gitaar of de zang. Of je filtert verkeerslawaai uit een buitenopname, of verwijdert het geblaf van een hond uit je volledige podcastopname. SAM Audio maakt dit allemaal mogelijk door audio te segmenteren op een manier die aansluit bij hoe mensen natuurlijk over geluid nadenken.
Wat is SAM Audio precies?
SAM Audio is het eerste unified multimodal model voor audiosegmentatie. In tegenstelling tot eerdere tools die vaak ontworpen waren voor specifieke toepassingen, biedt SAM Audio een alles-in-één oplossing die werkt met verschillende soorten prompts. Het model is gebouwd op een geavanceerde architectuur die gebruikmaakt van flow-matching diffusion transformers en kan audiomengsels analyseren en opsplitsen in hun afzonderlijke componenten.
Het hart van SAM Audio wordt gevormd door de Perception Encoder Audiovisual (PE-AV), een technische motor die state-of-the-art prestaties levert. Deze encoder is gebouwd op Meta’s open source Perception Encoder model en fungeert als de “oren” van het systeem, terwijl SAM Audio zelf als het “brein” werkt om audiosegmentatietaken uit te voeren.
Drie manieren om audio te segmenteren
SAM Audio ondersteunt drie verschillende promptmethoden die afzonderlijk of in combinatie gebruikt kunnen worden:
Tekstprompts: Je kan natuurlijke taal gebruiken om specifieke geluiden te beschrijven die je wil isoleren. Denk aan beschrijvingen zoals “hond die blaft”, “zingende stem” of “gitaarsolo”. Het model begrijpt deze tekstuele instructies en identificeert de overeenkomstige geluiden in de audio.
Visuele prompts: Bij het bewerken van video’s kan je simpelweg klikken op de persoon of het object dat geluid maakt. Het systeem gebruikt frame-level video features en koppelt deze aan audiorepresentaties, waardoor het nauwkeurig kan bepalen welk geluid bij welk visueel element hoort. Dit is bijzonder handig wanneer je moeite hebt om het exacte geluid in woorden te beschrijven.
Span prompts: Dit is een volledig nieuwe functionaliteit waarbij je tijdsegmenten kan markeren waar een bepaald geluid voorkomt. Dit is ideaal voor situaties waarin je een specifiek geluid gedurende een langere periode wil verwijderen of isoleren, zoals het elimineren van achtergrondgeruis tijdens een volledige opname.
Wat maakt SAM Audio anders?
Tot nu toe was audiosegmentatie een gefragmenteerde ruimte met verschillende tools voor specifieke doeleinden. SAM Audio onderscheidt zich op meerdere vlakken van bestaande modellen en benaderingen.
Unified aanpak
Waar traditionele audiotools vaak beperkt zijn tot één specifiek gebruik, biedt SAM Audio een geïntegreerde oplossing voor spraak-, muziek- en algemene geluidsscheiding. Het model behaalt state-of-the-art prestaties op taken zoals instrumentscheiding, spraakisolatie en algemene geluidsextractie, allemaal binnen één tool.
Multimodale flexibiliteit
De mogelijkheid om verschillende prompttypes te combineren geeft gebruikers ongekende controle. Je kan bijvoorbeeld tekstprompts combineren met tijdsmarkeringen voor nog preciezere resultaten. Deze mixed-modality benadering levert vaak sterkere uitkomsten dan single-modality benaderingen.
Real-time prestaties
SAM Audio werkt sneller dan real-time met een RTF (Real-Time Factor) van ongeveer 0,7. Dit betekent dat het model audio efficiënt kan verwerken, zelfs bij schaalgroottes van 500 miljoen tot 3 miljard parameters. Voor praktische toepassingen is deze snelheid cruciaal.
Robuuste training
Het model is getraind op een enorme dataset van meer dan 100 miljoen video’s, gebruikmakend van grootschalige multimodal contrastive learning. Deze training omvat zowel echte als synthetische audiomengsels die spraak, muziek en algemene geluidsgebeurtenissen omvatten.
De technische onderbouw
SAM Audio integreert verschillende open source componenten en research. Naast Meta’s Perception Encoder maakt het gebruik van PyTorchVideo voor efficiënte videoverwerking en FAISS voor grootschalige semantische zoekopdrachten. Het model gebruikt contrastive learning frameworks om audiovisuele informatie te combineren en te voorzien van tijdstempels.
Deze temporele afstemming is essentieel voor het matchen van wat gezien wordt met wat gehoord wordt. Zonder deze nauwkeurige synchronisatie zou het model het fijnmazige visuele begrip missen dat nodig is voor flexibele en perceptueel accurate audiosegmentatie.
SAM Audio-Bench en SAM Audio Judge
Meta heeft ook SAM Audio-Bench ontwikkeld, de eerste in-the-wild audio separation benchmark. In tegenstelling tot eerdere datasets die synthetische audiomengsels gebruiken of slechts een beperkte set geluiden dekken, is SAM Audio-Bench gebouwd met audio en video uit diverse hoogwaardige bronnen.
Daarnaast introduceert Meta SAM Audio Judge, een innovatief evaluatieframework dat de kwaliteit van audiosegmentatie beoordeelt op een manier die nauw aansluit bij menselijke perceptie. Dit reference-free model evalueert gesegmenteerde audio op basis van perceptuele criteria zoals recall, precisie, getrouwheid en algemene kwaliteit, zonder dat er referentietracks nodig zijn.
Voordelen van SAM Audio
Toegankelijk: Door professionele audiosegmentatie beschikbaar te maken via intuïtieve, natuurlijke prompts, democratiseert SAM Audio geavanceerde audiobewerking. Je hoeft geen technische expert te zijn om krachtige audiobewerkingen uit te voeren.
Veelzijdig: Het model werkt even goed voor muziekproductie, podcasting, filmproductie, wetenschappelijk onderzoek en toegankelijkheidstoepassingen. Deze brede toepasbaarheid maakt het waardevol voor diverse gebruikersgroepen.
Nauwkeurig: SAM Audio overtreft eerdere state-of-the-art modellen op een breed scala aan benchmarks en taken. Het evenaart zelfs de prestaties van de beste domeinspecifieke modellen voor alle audiocategorieën.
Open source: Door gebruik te maken van open source technologieën en deze zelf ook te delen, bevordert Meta innovatie en samenwerking binnen de AI-gemeenschap.
Snelheid: De real-time verwerkingscapaciteit maakt het model geschikt voor live toepassingen en grootschalige projecten.
Nadelen en beperkingen
Ondanks de indrukwekkende mogelijkheden heeft SAM Audio ook enkele beperkingen waar gebruikers rekening mee moeten houden.
Geen audio als prompt: Het model ondersteunt momenteel geen audio-gebaseerde prompts. Je kan dus niet een voorbeeldgeluid gebruiken om vergelijkbare geluiden in een andere opname te vinden.
Volledige scheiding zonder prompting: SAM Audio kan niet automatisch alle geluiden in een mengsel scheiden zonder specifieke instructies. Je moet altijd aangeven wat je wil isoleren.
Gelijkaardige geluiden: Het scheiden van zeer vergelijkbare audiogebeurtenissen blijft een uitdaging. Denk aan het isoleren van één zanger uit een koor of één instrument uit een orkest. Deze subtiele onderscheidingen zijn nog moeilijk voor het model.
Computationele vereisten: Hoewel het model efficiënt is, vereist het nog steeds aanzienlijke rekenkracht, vooral voor de grotere parameterversies.
Afhankelijkheid van promptkwaliteit: De resultaten zijn sterk afhankelijk van hoe goed je je prompts formuleert. Vage of onduidelijke instructies kunnen leiden tot minder nauwkeurige segmentatie.
Concurrerende modellen en alternatieven
SAM Audio opereert in een competitief landschap van audiosegmentatietools, elk met hun eigen sterke punten.
Spleeter by Deezer
Spleeter is een populaire open source library voor muziekscheiding die specifiek ontworpen is om stemmen en instrumenten te scheiden. Het is snel en relatief eenvoudig te gebruiken, maar mist de multimodale flexibiliteit en brede toepasbaarheid van SAM Audio.
Demucs
Demucs, ontwikkeld door Facebook AI Research (nu Meta AI), is een state-of-the-art model voor muziekscheiding dat uitstekende resultaten behaalt bij het scheiden van drums, bas, stemmen en andere instrumenten. Het is echter primair gericht op muziek en biedt niet de tekstuele of visuele promptmogelijkheden van SAM Audio.
OpenAI’s Whisper
Hoewel Whisper voornamelijk een spraakherkenningsmodel is, heeft het ook mogelijkheden voor het filteren van achtergrondgeluid. Het is echter niet ontworpen voor algemene audiosegmentatie en mist de veelzijdigheid van SAM Audio.
Adobe Podcast AI
Adobe’s AI-tools voor podcast editing bieden krachtige mogelijkheden voor spraakverbetering en ruisonderdrukking. Ze zijn echter commercieel en gericht op specifieke use cases binnen de Adobe-ecosysteem, terwijl SAM Audio een meer open en algemene aanpak biedt.
iZotope RX
iZotope RX is een professionele audio repair suite die geavanceerde tools biedt voor geluidsrestauratie en -bewerking. Het is echter een commercieel product met een steile leercurve en mist de AI-gedreven, prompt-gebaseerde interface van SAM Audio.
Praktische toepassingen
Meta gebruikt SAM Audio al om de volgende generatie creatieve mediatools te bouwen. De mogelijke toepassingen zijn enorm: audio clean-up, achtergrondruisverwijdering, muziekproductie, podcastbewerking, filmpostproductie, wetenschappelijk onderzoek naar akoestiek, en toegankelijkheidstoepassingen voor mensen met gehoorproblemen.
Meta heeft partnerschappen aangekondigd met Starkey, de grootste fabrikant van gehoorapparaten in de VS, en 2gether-International, een toonaangevende startup accelerator voor gehandicapte oprichters. Beide partners onderzoeken hoe modellen zoals SAM Audio toegankelijkheid verder kunnen bevorderen.