
Hugging Face heeft onlangs de SmolVLM-familie uitgebreid met twee nieuwe Vision Language Models (VLMs): SmolVLM-256M en SmolVLM-500M. Met respectievelijk 256 miljoen en 500 miljoen parameters zijn deze modellen aanzienlijk kleiner dan hun voorganger, de SmolVLM 2B met 2 miljard parameters. Ondanks hun compacte formaat behouden ze sterke multimodale prestaties.
De ontwikkeling van deze kleinere modellen is gericht op efficiëntie en toegankelijkheid. Ze zijn ontworpen voor gebruik op apparaten met beperkte rekenkracht, zoals consumentenniveau laptops en mogelijk zelfs browsergebaseerde toepassingen. Dit maakt ze geschikt voor een breed scala aan toepassingen, waaronder beeldonderschriftgeneratie, documentvraag-en-antwoord en basis visuele redenering.
Een opvallende keuze in deze nieuwe modellen is het gebruik van een kleinere vision encoder, de SigLIP base patch-16/512 met 93 miljoen parameters, die afbeeldingen verwerkt op een hogere resolutie. Deze aanpak, geïnspireerd door onderzoek van Apple en Google, verbetert het begrip van beelden met minimale extra belasting. Bovendien is een nieuwe tokenisatiestrategie geïmplementeerd die de prestaties in real-world benchmarks aanzienlijk verbetert.
Met de introductie van SmolVLM-256M en SmolVLM-500M biedt Hugging Face krachtige en efficiënte VLMs die toegankelijk zijn voor een breder publiek. Deze modellen zijn volledig open-source en kunnen direct worden geïntegreerd in bestaande workflows, wat hun inzetbaarheid in diverse toepassingen vergroot.