SmolVLM is een model dat visuele input kan verwerken en hierop tekstuele output genereert. Het onderscheidt zich door aanzienlijk minder GPU-kracht te vereisen dan vergelijkbare modellen, namelijk ongeveer de helft van de benodigde resources. Hugging Face omschrijft SmolVLM als een “open multimodal model” dat willekeurige combinaties van beeld- en tekstinput accepteert en tekstoutput genereert. Het […]