Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M-网络资讯-红帽SEO工作室

当前位置：红帽SEO工作室网络资讯 Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

→ 源码教程下载地址见 →右侧下载链接 →点“登录购买”→注册登录购买后可见→
→ 这里没有广告，只有干货！给力项目更多教程，点此加入VIP会员,即可免费下载！
→ 每日分享你意想不到的网络思维！加入红帽VIP会员，感受一下网络赚钱的快感，点击进入了解。

1 月 26 日消息，Hugging Face 发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M，其中 SmolVLM-256M 号称是世界上最小的视觉语言模型（Video Language Model）。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M 第1张

据悉，相应模型主要基于 Hugging Face 团队去年训练的 80B 参数模型蒸馏而成，号称在性能和资源需求之间实现了平衡，官方称 SmolVLM-256M / 500M 两款模型均可“开箱即用”，可以直接部署在 transformer MLX 和 ONNX 平台上。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M 第2张

具体技术层面，SmolVLM-256M / 500M 两款模型均采用 SigLIP 作为图片编码器，使用 SmolLM2 作为文本编码器。其中 SmolVLM-256M 是目前最小的多模态模型，可以接受任意序列的图片和文本输入并生成文字输出，该模型功能包括描述图片内容、为短视频生成字幕、处理 PDF 等。Hugging Face 称由于该模型整体轻巧，可在移动平台轻松运行，仅需不到 1GB 的 GPU 显存便可在单张图片上完成推理。

而 SmolVLM-500M 针对需要更高性能的场景而设计，Hugging Face 称相关模型非常适合部署在企业运营环境中，该模型推理单张图片仅需 1.23GB 的 GPU 显存，相对 SmolVLM-256M 虽然负载更大，但推理输出的内容更精准。

Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M 第3张

IT之家注意到，两款模型均采用 Apache 2.0 开源授权，研究团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公开便于开发者下载和使用，具体页面可（点此访问）。

温馨提示：
1、如非特别声明，本内容转载于网络，版权归原作者所有！
2、本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
3、本内容若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！
我要投诉
红帽SEO工作室 » Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M

红帽seo

分享到：

红帽seo

咨询在线客服