北大不断更新多模态大模型开源：混合数据集训练，图像视频任务直接用

2024-02-05 来源 : 电视

，性能发挥也很很差。

7B给定的Chat-UniVi假设能达到13B大小LLaVA假设的性能水平。这证明了该工具的有效性。

录像表达出来科学实验

作为一个标准化的VLM，Chat-UniVi超越了专为针对录像样式设计的工具，如VideoChat和Video-ChatGPT。

图表猜谜科学实验

Chat-UniVi在ScienceQA资料集上性能发挥良好，其性能比不上专为针对科学猜谜顺利进行优化的LLaMA-SciTune假设。

录像猜谜科学实验

在所有资料集上，Chat-UniVi均发挥比不上最先进的工具，如VideoChat和Video-ChatGPT等。

噩梦科学实验

在噩梦评估方面，Chat-UniVi发挥比不上值得注意指出有的最先进工具。

值得注意的是，作为一个7B假设，Chat-UniVi在性能上超越了13B给定大小的MiniGPT-4。

科学研究人员将这一失败便是多整整尺度也就是说，这使得假设能够同时也就是说低阶文法种概念和低级感官样式。

人工评测科学实验

同时，科学研究人员还顺利进行了人工评估科学实验。

他们发现，基于Flamingo的工具在表达出来录像的能力上存在局限性。这种限制归因于它们用到Q-Former从完全相同较宽的录像之中提取分开数量的感官标上，这以致于了它们在机器研修整整表达出来方面的有效性。

相比之下，作为一个标准化的假设，Chat-UniVi不仅比不上基于Flamingo借助于的工具，而且超越了专为为图表和录像样式设计的假设。

可视化

Chat-UniVi所采用的静态感官token巧妙地概括了对象和或多或少。

这使得Chat-UniVi能够以有限数量的感官token，同时机器研修图表表达出来所均需的细粒度室内空间亮度和录像表达出来所均需的细粒度整整亮度。

工作团队参阅

学术著作一作是北大接收者工程学院博三教职员金鹏。

通讯作者袁粒，北大接收者工程学院经理任教、博士生导师。

其科学研究方向为多可定义尺度研修和AI4S，其之中AI4S方向主要科学研究尺度研修解决化教职员物之中的重大难题。

此前网络起火的ChatExcel、ChatLaw等横向应用领域大假设项目都出有自袁粒工作团队。

arXiv：Demo：GitHub：郑中基脸：

— 完 —

量子场论位 QbitAI · 头初版号签态

。