主页 > 新闻 > 全球热点 > 正文

FineVision— Hugging Face开源的视觉语言数据集

发布时间：

关于“FineVision—Hugging Face开源的视觉语言数据集”，目前搜索结果中未提及该数据集的相关信息。不过，Hugging Face曾发布过多个与视觉语言相关的数据集和模型，以下是其在视觉语言领域的主要开源成果，可供参考：

Hugging Face视觉语言相关开源成果

1. 视觉语言模型：SmolVLM系列

SmolVLM-256M/500M（2025年1月发布）：参数量分别为2.56亿和5亿，是目前类别中参数量最小的视觉语言模型之一，支持在浏览器（WebGPU）和笔记本电脑运行。其核心优势在于轻量化编码器（基于SigLIP模型，仅9300万参数，不到上一代的1/4），可处理更高分辨率图像，提升视觉理解能力。
能力覆盖：支持文档问答、视频内容描述、图表解释、手写数学表达式推理等任务，在内部评估中，256M版本在半数基准测试中超过18个月前发布的800亿参数多模态模型。

2. 视频数据集：FineVideo（2024年7月发布）

定位：专注于多模态学习的大型视频数据集，强调情感叙事和上下文关联，支持视频摘要、情绪预测、叙事分析等复杂任务。
规模与内容：包含43,751个视频（总时长3,425小时），覆盖122个类别，平均长度4.7分钟，配备标题、语音转录、时间码注释（关键活动、物体出现、情绪波动）等元数据。
应用场景：媒体编辑（情感走向分析）、基于视频的问答系统（如设备操作培训视频的交互式问答）。

3. 视觉编码器优化

Hugging Face在视觉语言模型中采用轻量化编码器设计，如SmolVLM使用的SigLIP-base-patch-16/512编码器，参数仅9300万，支持更高分辨率图像输入，同时降低硬件需求。这一技术思路源自苹果和谷歌的研究，即在不增加参数的情况下，通过提升图像分辨率增强视觉理解。

类似视觉语言数据集参考

若需寻找Hugging Face的视觉语言数据集，可关注：

图像-文本对数据集：如Hugging Face Datasets平台上的flickr30k、coco等经典视觉语言数据集，支持图像描述、视觉问答（VQA）任务。
多模态模型训练数据：SmolVLM系列模型的训练数据包含手写数学表达式、文档理解数据等，虽未单独开源，但相关技术报告提及对文档、图像描述能力的针对性优化。

建议通过Hugging Face官网（Datasets库）搜索“vision-language”“multimodal”等关键词，或关注其官方博客获取最新开源数据集动态。

▋最新热点