FineVision— Hugging Face开源的视觉语言数据集
发布时间:
关于“FineVision—Hugging Face开源的视觉语言数据集”,目前搜索结果中未提及该数据集的相关信息。不过,Hugging Face曾发布过多个与视觉语言相关的数据集和模型,以下是其在视觉语言领域的主要开源成果,可供参考:
Hugging Face视觉语言相关开源成果
1. 视觉语言模型:SmolVLM系列
- SmolVLM-256M/500M(2025年1月发布):参数量分别为2.56亿和5亿,是目前类别中参数量最小的视觉语言模型之一,支持在浏览器(WebGPU)和笔记本电脑运行。其核心优势在于轻量化编码器(基于SigLIP模型,仅9300万参数,不到上一代的1/4),可处理更高分辨率图像,提升视觉理解能力。
- 能力覆盖:支持文档问答、视频内容描述、图表解释、手写数学表达式推理等任务,在内部评估中,256M版本在半数基准测试中超过18个月前发布的800亿参数多模态模型。
2. 视频数据集:FineVideo(2024年7月发布)
- 定位:专注于多模态学习的大型视频数据集,强调情感叙事和上下文关联,支持视频摘要、情绪预测、叙事分析等复杂任务。
- 规模与内容:包含43,751个视频(总时长3,425小时),覆盖122个类别,平均长度4.7分钟,配备标题、语音转录、时间码注释(关键活动、物体出现、情绪波动)等元数据。
- 应用场景:媒体编辑(情感走向分析)、基于视频的问答系统(如设备操作培训视频的交互式问答)。
3. 视觉编码器优化
-
Hugging Face在视觉语言模型中采用轻量化编码器设计,如SmolVLM使用的SigLIP-base-patch-16/512编码器,参数仅9300万,支持更高分辨率图像输入,同时降低硬件需求。这一技术思路源自苹果和谷歌的研究,即在不增加参数的情况下,通过提升图像分辨率增强视觉理解。
类似视觉语言数据集参考
若需寻找Hugging Face的视觉语言数据集,可关注:
-
图像-文本对数据集:如Hugging Face Datasets平台上的
flickr30k
、coco
等经典视觉语言数据集,支持图像描述、视觉问答(VQA)任务。 - 多模态模型训练数据:SmolVLM系列模型的训练数据包含手写数学表达式、文档理解数据等,虽未单独开源,但相关技术报告提及对文档、图像描述能力的针对性优化。
建议通过Hugging Face官网(Datasets库 )搜索“vision-language”“multimodal”等关键词,或关注其官方博客获取最新开源数据集动态。