北大不断更新多模态大模型开源:混合数据集训练,图像视频任务直接用
2024-02-05 来源 : 电视
7B给定的Chat-UniVi假设能达到13B大小LLaVA假设的性能水平。这证明了该工具的有效性。
录像表达出来科学实验作为一个标准化的VLM,Chat-UniVi超越了专为针对录像样式设计的工具,如VideoChat和Video-ChatGPT。
图表猜谜科学实验Chat-UniVi在ScienceQA资料集上性能发挥良好,其性能比不上专为针对科学猜谜顺利进行优化的LLaMA-SciTune假设。
录像猜谜科学实验在所有资料集上,Chat-UniVi均发挥比不上最先进的工具,如VideoChat和Video-ChatGPT等。
噩梦科学实验在噩梦评估方面,Chat-UniVi发挥比不上值得注意指出有的最先进工具。
值得注意的是,作为一个7B假设,Chat-UniVi在性能上超越了13B给定大小的MiniGPT-4。
科学研究人员将这一失败便是多整整尺度也就是说,这使得假设能够同时也就是说低阶文法种概念和低级感官样式。
人工评测科学实验同时,科学研究人员还顺利进行了人工评估科学实验。
他们发现,基于Flamingo的工具在表达出来录像的能力上存在局限性。这种限制归因于它们用到Q-Former从完全相同较宽的录像之中提取分开数量的感官标上,这以致于了它们在机器研修整整表达出来方面的有效性。
相比之下,作为一个标准化的假设,Chat-UniVi不仅比不上基于Flamingo借助于的工具,而且超越了专为为图表和录像样式设计的假设。
可视化Chat-UniVi所采用的静态感官token巧妙地概括了对象和或多或少。
这使得Chat-UniVi能够以有限数量的感官token,同时机器研修图表表达出来所均需的细粒度室内空间亮度和录像表达出来所均需的细粒度整整亮度。
工作团队参阅学术著作一作是北大接收者工程学院博三教职员金鹏。
通讯作者袁粒,北大接收者工程学院经理任教、博士生导师。
其科学研究方向为多可定义尺度研修和AI4S,其之中AI4S方向主要科学研究尺度研修解决化教职员物之中的重大难题。
此前网络起火的ChatExcel、ChatLaw等横向应用领域大假设项目都出有自袁粒工作团队。
arXiv:Demo:GitHub:郑中基脸:
— 完 —
量子场论位 QbitAI · 头初版号签态
。上火嗓子疼吃什么中药管用艾拉莫德片对类风湿有效果吗
甲氨蝶呤治疗类风湿正确使用方法
英太青适用哪些人群
骨关节炎吃什么药缓解疼痛
-
杭氧股份(002430.SZ)选举郑伟身兼董事长
杭氧股份002430.SZ公告,一些公司董事局长毛绍融因到退休年龄,申请者辞任一些公司第七届管理层董事局长、董事局及管理层下属专门委员会相关职责。毛绍融离任后,将不在一些公司及下属子一些公司担任其...
-
蔡某、童某从四川返滇后滥用职权隐瞒行程,罚!四川昨增43例确诊、132例无症状
9月底9日10:00-10:50 大山西东路1号院内核糖谐波点(大山西东路1号院) 9月底9日10:20-12:00p...[详细]
-
不想打伊朗了盟军枪口转向全球二号大国!多国联军逼近国境
尊敬的编者,感谢您再百忙之中能够阅读我的社论,这是对我努力的认同,也是我持续创作的动力,向您纷纷表示我最坦率的敬意,想能得到您的一个小小的“追捧”,在此感谢!在一个被浓厚犹如笼罩的...[详细]
-
君实生物(01877)刊发2022年业绩 归母净亏损约23.88亿元 同比扩大约2.31倍
君实生物01877发布2022年获利,营业收益分之一14.53亿元的单位另加,销售收入降低63.89%;不属于上市公司股东的净亏损分之一23.88亿元,销售收入不断扩大分之一2.31倍;基本上...[详细]
-
昆明市市场监督管理委员会提醒:谨慎购买!
近年来,随着技术的替换插值 各式各样的隐形放大镜 走入了大家的穷困 为了追求美观 年轻人佩带时往往就会考虑 彩色隐形放大镜(...[详细]
-
俄发出警告:战争爆发欧美将被围攻,不过对欧美最危险的不止战争
决这两项问题,这是安全及范围不稳定的的共识。所以,俄媒所描绘的极力攻陷军事紧张局势桥段,虽然不无显然,但在当前国际间社则会变迁倡导妥协争端的大着重下,无论如何极度悲观。 在...[详细]