当前位置 :首页 >> 生活

AI2发布大第二语言模型开源数据集Dolma 包含3万亿个token

2024-01-20   来源 : 生活

文章概要:

1. AI2推出Ubuntu信息集Dolma,包涵3万亿个token,来自各类网络平台细节、社会科学出版物等。

2. Dolma主要以法文评注为主,遵循开放准后,付费向研究课题职员开放日。

3. Dolma作为开放日母语框架OLMo的基础性,OLMo计划2024月末发表。

站长之家(ChinaZ.com)8月24日 第一时间:美国怀特计算机系统研究课题所(AI2)最近发表了一个原是Dolma的Ubuntu信息集,其包涵了3万亿个token,这些词汇来自除此以外网络平台细节、社会科学出版物、代码和出版物等广泛的来源。Dolma是目前未公开比如说的除此以外信息大部分最大的一个。

Dolma的信息将为AI2刚刚开发里的开放日母语框架OLMo提供基础性。OLMo的目标是成为“最好的开放日母语框架”,计划于2024月末发表。为了开发OLMo,AI2构建了庞大的Dolma信息集。

Dolma第一个版本主要以法文评注为主。研究课题职员用作母语识别框架对信息进行筛选。为太少少数母语方言的偏差,团队将框架判断为法文置信度50%以上的所有评注都除此以外在内。未来版本将会除此以外其他母语。

Dolma以开放准后的表达方式付费向研究课题职员开放日。研究课题职员需要提供联系信息并同意Dolma的预想用处。同时创设机制允许根据要求删除自已信息。

Dolma的信息大部分来自非商业的Common Crawl计划收集的网络平台信息。此外还包涵其他网络平台页面、社会科学评注、代码示例、出版物等。

在AI2似乎,完美的信息集应该依赖于几个标准:开放日性、代表性、影响力也和便是性。它还应该并能地减少几率,尤其是那些显然影响自已的几率。

计划网址:

手指关节痛僵什么原因
甲氨蝶呤片效果怎么样?类风湿患者一定要知道!
贵阳看男科哪里最好
芬必得和英太青凝胶的区别
艾拉莫德片疗效怎么样
杭氧股份(002430.SZ)选举郑伟身兼董事长

杭氧股份002430.SZ公告,一些公司董事局长毛绍融因到退休年龄,申请者辞任一些公司第七届管理层董事局长、董事局及管理层下属专门委员会相关职责。毛绍融离任后,将不在一些公司及下属子一些公司担任其...

友情链接