Last Database

Posted: **Thu Jul 10, 2025 10:53 am**

作为语言视觉研究人员和从业人员的一站式图书馆，利用
欢迎新人加入该领域，分享他们的想法，帮助社区发展
促进集体努力，扩大所开发技术的研究和实际影响。
如表 1 所示，LAVIS 是目前最全面的语言视觉库，我们正在持续改进它。即将推出：更强大的语言视觉模型，以及文本转图像生成等新功能。

表 1：LAVIS 与现有语言视觉库/代码库的正面比较。其他库/代码库的功能和应用领域均无法与 LAVIS 相提并论。注：UniLM 和 TorchMultimodal（alpha 版本）中的语言视觉模型尚在开发中，因此本表仅包含截至本文发布时它们所支持的功能。

深入探究
现在让我们更详细地探讨 LAVIS 的主要功能。

全面支持图文/视频文任务和数据集
LAVIS 支持超过 10 个常用语言视觉任务，涵盖 20 多个公共数据集，且仍在不断增长。这些任务和数据集为手机号数据库列表评估语言视觉模型提供了全面统一的基准。我们优先考虑那些标准化且广泛采用、拥有公开数据集的任务，用于评估。这些任务包括：

多模态检索任务：给定一种模态的查询，搜索另一种模态的目标，例如图像↔文本检索，或视频↔文本检索
多模式问答：回答有关图像或视频的问题；例如，视觉问答（VQA）、视频问答（VideoQA）
图像字幕：为图像生成语言描述
多模态分类：为多模态或单模态输入分配类别标签；例如，图像分类、图像文本分类
多模式对话：进行涉及多模式内容的对话。
最先进且可重复的语言视觉模型
LAVIS 库支持访问四个热门基础模型（ALBEF、BLIP、CLIP 和 ALPRO）的 30 多个预训练和针对特定任务进行微调的模型检查点。这些模型在使用通用指标评估的多个任务中均取得了优异的性能。我们还提供训练、评估脚本和配置，以促进可重复的语言视觉研究和应用。

Last Database

语言视觉领域的最新发展

语言视觉领域的最新发展