FineVision— Hugging Face开源的视觉语言数据集

发布时间:

关于“FineVision—Hugging Face开源的视觉语言数据集”,目前搜索结果中未提及该数据集的相关信息。不过,Hugging Face曾发布过多个与视觉语言相关的数据集和模型,以下是其在视觉语言领域的主要开源成果,可供参考:

Hugging Face视觉语言相关开源成果

1. 视觉语言模型:SmolVLM系列

  • SmolVLM-256M/500M(2025年1月发布):参数量分别为2.56亿和5亿,是目前类别中参数量最小的视觉语言模型之一,支持在浏览器(WebGPU)和笔记本电脑运行。其核心优势在于轻量化编码器(基于SigLIP模型,仅9300万参数,不到上一代的1/4),可处理更高分辨率图像,提升视觉理解能力。
  • 能力覆盖:支持文档问答、视频内容描述、图表解释、手写数学表达式推理等任务,在内部评估中,256M版本在半数基准测试中超过18个月前发布的800亿参数多模态模型。

2. 视频数据集:FineVideo(2024年7月发布)

  • 定位:专注于多模态学习的大型视频数据集,强调情感叙事和上下文关联,支持视频摘要、情绪预测、叙事分析等复杂任务。
  • 规模与内容:包含43,751个视频(总时长3,425小时),覆盖122个类别,平均长度4.7分钟,配备标题、语音转录、时间码注释(关键活动、物体出现、情绪波动)等元数据。
  • 应用场景:媒体编辑(情感走向分析)、基于视频的问答系统(如设备操作培训视频的交互式问答)。

3. 视觉编码器优化

  • Hugging Face在视觉语言模型中采用轻量化编码器设计,如SmolVLM使用的SigLIP-base-patch-16/512编码器,参数仅9300万,支持更高分辨率图像输入,同时降低硬件需求。这一技术思路源自苹果和谷歌的研究,即在不增加参数的情况下,通过提升图像分辨率增强视觉理解。

类似视觉语言数据集参考

若需寻找Hugging Face的视觉语言数据集,可关注:

  • 图像-文本对数据集:如Hugging Face Datasets平台上的flickr30kcoco等经典视觉语言数据集,支持图像描述、视觉问答(VQA)任务。
  • 多模态模型训练数据:SmolVLM系列模型的训练数据包含手写数学表达式、文档理解数据等,虽未单独开源,但相关技术报告提及对文档、图像描述能力的针对性优化。

建议通过Hugging Face官网(Datasets库 )搜索“vision-language”“multimodal”等关键词,或关注其官方博客获取最新开源数据集动态。

阅读全文
▋最新热点