De volgende generatie in beeldherkenning is hier
Meta heeft in november 2024 een nieuwe mijlpaal bereikt in de wereld van computer vision met de lancering van Segment Anything Model 3, beter bekend als SAM 3. Dit geavanceerde AI-model markeert een fundamentele verschuiving in hoe computers visuele informatie begrijpen en verwerken. Waar eerdere modellen beperkt waren tot het herkennen van vooraf gedefinieerde objectcategorieën, opent SAM 3 de deur naar een veel flexibelere en intuïtievere manier van werken met beelden en video’s.
De kracht van SAM 3 ligt in zijn vermogen om objecten te detecteren, segmenteren en volgen op basis van een tekstprompt. Je hoeft niet langer te werken met ingewikkelde technische parameters of vooraf gedefinieerde labels. In plaats daarvan kun je gewoon beschrijven wat je zoekt, en het model doet de rest. Deze doorbraak heeft verstrekkende gevolgen voor talloze toepassingen, van videobewerking tot wetenschappelijk onderzoek.
Wat maakt SAM 3 zo bijzonder
Het fundamentele verschil tussen SAM 3 en zijn voorgangers zit in wat Meta promptable concept segmentation noemt. Dit betekent dat het model elk concept kan vinden en segmenteren dat je definieert via een tekstprompt of voorbeeldafbeelding. Traditionele modellen konden wel een “auto” herkennen, maar hadden moeite met specifiekere beschrijvingen zoals “gele schoolbus” of “rode paraplu met strepen”.
SAM 3 accepteert verschillende soorten prompts. Je kunt werken met korte tekstfrasen, voorbeeldafbeeldingen, maar ook met visuele prompts zoals maskers, boxen en punten die al in de eerdere SAM-versies werden geïntroduceerd. Deze veelzijdigheid maakt het model geschikt voor een breed scala aan toepassingen, van eenvoudige fotobewerkingen tot complexe wetenschappelijke analyses.
De prestaties zijn indrukwekkend. Op Meta’s eigen SA-Co benchmark scoort SAM 3 twee keer beter dan bestaande systemen, zowel voor beelden als voor video’s. Het model kan in slechts 30 milliseconden een enkel beeld verwerken met meer dan 100 gedetecteerde objecten op een H200 GPU. Voor video’s schaalt de verwerkingstijd met het aantal objecten, waarbij het model bijna real-time prestaties levert voor ongeveer vijf gelijktijdige objecten.
De verschillende modellen in het SAM ecosysteem
Meta heeft naast SAM 3 ook SAM 3D gelanceerd, een complementair model dat zich richt op driedimensionale reconstructie. SAM 3D bestaat uit twee afzonderlijke modellen die elk hun eigen specialisatie hebben.
SAM 3D Objects
Dit model is getraind voor object- en scènereconstructie. Het kan vanuit een enkele tweedimensionale afbeelding een volledig driedimensionaal model genereren van objecten en omgevingen. De toepassingen zijn divers: van het creëren van 3D-assets voor videogames tot het visualiseren van meubelstukken in je eigen woonkamer voordat je ze koopt. Meta gebruikt deze technologie al in de “View in Room” functie op Facebook Marketplace.
SAM 3D Body
Het tweede model binnen SAM 3D specialiseert zich in menselijke reconstructie. Het kan de lichaamsvorm en houding van personen nauwkeurig inschatten op basis van tweedimensionale beelden. Dit opent mogelijkheden voor toepassingen in sportgeneeskunde, robotica en het creëren van realistische avatars voor virtual reality ervaringen.
SAM 3 Agent
Een interessante uitbreiding is SAM 3 Agent, waarbij SAM 3 wordt gecombineerd met een multimodaal large language model. Deze combinatie kan complexere tekstqueries verwerken die redenering vereisen, zoals “Welk object op de foto wordt gebruikt om een paard te controleren en te leiden?” Het systeem stelt zelf noun phrase queries voor om SAM 3 te promten en analyseert de geretourneerde maskers tot het resultaat bevredigend is.
Hoe Meta SAM 3 heeft gebouwd
De ontwikkeling van SAM 3 vereiste een innovatieve aanpak voor het verzamelen en annoteren van trainingsdata. Het verkrijgen van hoogwaardige geannoteerde beelden met segmentatiemaskers en tekstlabels over een breed scala aan categorieën en visuele domeinen is een enorme uitdaging. Dit soort data bestaat simpelweg niet op grote schaal op het internet.
Meta ontwikkelde daarom een schaalbare data-engine die SAM 3 zelf, menselijke annotators en AI-modellen combineert. Dit hybride systeem zorgt voor dramatische versnellingen in de annotatie: ongeveer vijf keer sneller dan mensen bij negatieve prompts en 36 procent sneller voor positieve prompts, zelfs in uitdagende fijnmazige domeinen. Deze aanpak maakte het mogelijk om een grote en diverse trainingsset te creëren met meer dan vier miljoen unieke concepten.
Een pipeline van AI-modellen, waaronder SAM 3 zelf en systemen zoals een Llama-gebaseerde captioner, analyseert automatisch beelden en video’s, genereert bijschriften, parseert deze naar tekstlabels en creëert initiële segmentatiemaskers. Menselijke en AI-annotators verifiëren en corrigeren vervolgens deze voorstellen, wat resulteert in een feedbackloop die de datasetdekking snel opschaalt terwijl de datakwaliteit continu verbetert.
De concurrentie in computer vision
SAM 3 opereert in een competitief landschap met verschillende sterke spelers. Google’s Gemini 3 is een van de belangrijkste concurrenten, hoewel SAM 3 dit model consequent overtreft op concept segmentatie taken. Andere gespecialiseerde modellen zoals GLEE, OWLv2 en LLMDet bieden ook sterke prestaties, maar SAM 3 scoort beter op de meeste benchmarks.
In gebruikersstudies geven mensen ongeveer drie keer vaker de voorkeur aan SAM 3 outputs boven die van OWLv2, een van de sterkste baselines. Op uitdagende benchmarks zoals zero-shot LVIS en object counting (gemeten op CountBench) behaalt SAM 3 state-of-the-art resultaten.
Wat SAM 3 onderscheidt van de concurrentie is de combinatie van prestaties, snelheid en veelzijdigheid. Waar veel modellen zich specialiseren in één specifieke taak, biedt SAM 3 een breed scala aan mogelijkheden binnen één geïntegreerd systeem. De open-source aanpak van Meta zorgt bovendien voor snelle adoptie en continue verbetering door de community.
Waar SAM 3 uitblinkt
De sterke punten van SAM 3 komen het best tot uiting in specifieke gebruiksscenario’s. Het model excelleert in het segmenteren van objecten die worden beschreven door korte noun phrases, wat de meest voorkomende manier is waarop gebruikers hun intenties uitdrukken in interactieve settings.
Flexibiliteit in prompting
Een van de grootste voordelen is de flexibiliteit in hoe je het model kunt aansturen. Naast tekstprompts kun je ook voorbeeldafbeeldingen gebruiken. Dit is bijzonder waardevol voor zeldzame concepten of objecten die moeilijk te beschrijven zijn met woorden alleen. De combinatie van verschillende promptmodaliteiten maakt SAM 3 geschikt voor een veel breder scala aan toepassingen dan concurrerende modellen.
Video tracking
SAM 3 blinkt uit in het volgen van objecten door video’s heen. Het model kan elk object tracken met een SAM 2-stijl masklet, waarbij de kosten van inferentie lineair schalen met het aantal objecten dat wordt gevolgd. Dit maakt real-time toepassingen mogelijk, zoals het automatisch pixeleren van gezichten in video’s of het toepassen van speciale effecten op specifieke objecten.
Wetenschappelijke toepassingen
In wetenschappelijke velden toont SAM 3 bijzondere waarde. Meta werkte samen met Conservation X Labs en Osa Conservation om de SA-FARI dataset te bouwen, een openbare verzameling van meer dan 10.000 camera trap video’s met meer dan 100 diersoorten. Elk dier in elk frame is geannoteerd met bounding boxes en segmentatiemaskers.
Ook in maritiem onderzoek maakt SAM 3 impact. Via de samenwerking met FathomNet zijn segmentatiemaskers en een nieuwe instance segmentation benchmark beschikbaar voor onderwaterbeelden. Deze tools helpen de bredere AI-community om innovatieve manieren te ontwikkelen voor het ontdekken, monitoren en beschermen van wildlife op land en in de oceaan.
Praktische toepassingen en integraties
Meta integreert SAM 3 in verschillende producten binnen zijn ecosysteem. In de Edits app kunnen creators dynamische effecten toepassen op specifieke personen of objecten in hun video’s, waarbij complexe bewerkingsworkflows worden vereenvoudigd tot één klik. Ook in Vibes, het platform voor AI-gegenereerde video’s, komen nieuwe creatiemogelijkheden beschikbaar die worden aangedreven door SAM 3.
Voor ontwikkelaars biedt Roboflow integratie met SAM 3, waardoor het mogelijk wordt om snel custom endpoints te creëren met slechts een handvol afbeeldingen. Dit is ideaal voor snelle prototyping en het testen van concepten voordat je investeert in het labelen van grote datasets of het trainen van custom modellen.
De Segment Anything Playground maakt het voor iedereen mogelijk om met SAM 3 te experimenteren zonder technische expertise. Je kunt afbeeldingen of video’s uploaden en direct aan de slag met verschillende templates, van praktische opties zoals het pixeleren van gezichten tot creatieve video-edits zoals spotlight effecten en motion trails.
Beperkingen en toekomstige ontwikkelingen
Ondanks de indrukwekkende prestaties heeft SAM 3 ook zijn beperkingen. Het model heeft moeite met het benoemen van objecten die het nog nooit gezien heeft (zero-shot setting), zoals het identificeren van specifieke medische termen zoals bloedplaatjes. Dit vooral in niche visuele domeinen met medische of wetenschappelijke beelden.
Meta heeft aangetoond dat het model zich snel aanpast aan nieuwe concepten en visuele domeinen wanneer het wordt fine-getuned op kleine hoeveelheden geannoteerde data. Als onderdeel van de code release deelt Meta fine-tuning benaderingen die de community kan gebruiken om SAM 3 aan te passen voor specifieke use cases.
Een andere beperking is dat SAM 3 weliswaar goed presteert met korte open-vocabulary prompts, maar niet direct langere, complexe zinnen ondersteunt. Wanneer het echter wordt gecombineerd met multimodale large language models, kan het systeem worden getraind om langere, meer complexe beschrijvingen te verwerken, inclusief gevallen die redenering vereisen.
De impact op de AI-industrie
De release van SAM 3 markeert een belangrijk moment in de evolutie van computer vision. Door geavanceerde beeldherkenning toegankelijk te maken via eenvoudige tekstprompts, democratiseert Meta mogelijkheden die voorheen beperkt waren tot onderzoekslaboratoria. De open-source aanpak versnelt innovatie en zorgt ervoor dat ontwikkelaars wereldwijd kunnen bouwen op deze technologie.
Voor bedrijven betekent SAM 3 dat het bouwen van vision applicaties drastisch eenvoudiger en sneller wordt. Waar het ontwikkelen van een custom object detection model voorheen weken of maanden kon duren, kun je nu binnen enkele uren een werkend prototype hebben. Deze versnelling in ontwikkeltijd heeft directe impact op de time-to-market voor nieuwe producten en diensten.
De combinatie van SAM 3 en SAM 3D positioneert Meta als leider in visuele AI, op een moment dat augmented reality en mixed reality applicaties steeds belangrijker worden. Terwijl concurrenten zoals Google, Microsoft en OpenAI zich vooral richten op large language models, creëert Meta een sterke positie in computer vision die cruciaal kan zijn voor de volgende generatie computing platforms.
Aan de slag met SAM 3
Voor wie zelf met SAM 3 aan de slag wil, zijn er verschillende opties. De eenvoudigste manier is via de Segment Anything Playground, waar je zonder technische kennis direct kunt experimenteren met het model. Voor ontwikkelaars die SAM 3 willen integreren in hun applicaties, biedt Roboflow een dedicated API endpoint, ondersteund door schaalbare cloud infrastructuur.
Wie liever lokaal werkt of SAM 3 in een private cloud wil deployen, kan gebruikmaken van Roboflow Inference. Deze tool maakt het eenvoudig om SAM 3 lokaal te gebruiken, verwerkt efficiënt videostreams, optimaliseert resources en beheert dependencies. Je kunt logica toevoegen, data transformeren, triggers versturen en andere foundation models koppelen om een custom pipeline te ontwikkelen.
Meta heeft de modelgewichten, evaluatiebenchmarks en onderzoekspapers publiek beschikbaar gemaakt, samen met de SA-Co dataset die dient als nieuwe benchmark voor de community. Voor SAM 3D deelt Meta de model checkpoints en inference code, samen met een uitgebreide dataset voor training doeleinden.
De toekomst van computer vision is aangebroken, en SAM 3 speelt daarin een centrale rol. Of je nu een ontwikkelaar bent die vision applicaties wil bouwen, een onderzoeker die nieuwe mogelijkheden verkent, of gewoon nieuwsgierig bent naar wat AI kan betekenen voor beeldverwerking, SAM 3 biedt krachtige tools die voorheen ondenkbaar waren. De combinatie van prestaties, toegankelijkheid en open-source beschikbaarheid maakt dit een keerpunt in hoe we omgaan met visuele informatie.