中英文最大 AI 模型世界纪录发生大模型比赛新阶段来了 发布时间:2021-10-17 06:12:22 来源:168体育直播平台下载


  而 GPT-3 呈现后,虽然有 Switch Transformer 等万亿参数混合模型呈现,但单体模型增长速度现已显着放缓。

  无论是开发 ELMo 的 Allen 研讨所、仍是开发 GPT-2 的 OpenAI(其时还未引进微软出资)都不是以盈余为方针。

  从 2019 年下半年开端,各家分别开宣布大规划并行练习、模型扩展技能,以期开宣布更大的 NLP 模型。英伟达 Megatron-LM、谷歌 T5、微软 Turing-NLG 相继呈现。

  源 1.0 不只有高达 5TB 的全球最大中文高质量数据集,在总核算量和练习功率优化上都是空前的。

  具有技能的 OpenAI 因为难以承受昂扬本钱,引进了微软 10 亿美元出资。依托海量的硬件与数据集资源,1750 亿参数的 GPT-3 于上一年面世。

  可是,本年万亿参数模型的 GPT-4 并没有按期呈现,反而是微软与英伟达联手,推出了 威震天 - 图灵 。

  威震天 - 图灵 发布之前,国内外出现了了不少超大 AI 单体模型,国内就有阿里达摩院 PLUG、 源 1.0 等。

  像英伟达、微软、谷歌、华为、浪潮等公司参加,一方面是为 AI 研讨供给很多的算力支撑,另一方面是因为他们在大规划并行核算上具有丰厚的经历。

  英伟达与微软合体正是为此,相同面临该问题,浪潮在 源 1.0 中也用了前沿的技能途径处理练习功率问题。

  威震天 - 图灵 和 源 1.0 相同,在张量并行战略中,模型的层在节点内的设备之间进行区分。

  练习超大规划自然言语模型本钱升高,技能上异曲同工,构成研讨机构与科技巨子协同开展,三种探究形式齐头并进的局势。

  上一年发布的 GPT-3 不只未开源,甚至连 API 都是定量供给,因为取得微软的出资,往后 GPT-3 将由微软独享知识产权,其他企业或个人想运用完好功用只能无可奈何。

  练习本钱奇高、品德道德问题以及为了确保职业领先地位,让微软不敢下放技能。其他科技公司也不行能将自己的命运交给微软,只能挑选单独开发。

  而中文需求对语句首要进行分词处理,如 南京市长江大桥 , 南京市 长江 大桥、南京 市长 江大桥,过错的分词会让 AI 发生歧义。

  比较于英文有空格作为分隔符,中文分词缺少统一标准,相同一个词汇在不同语境、不同语句中的意义可能会相差甚远,加上各种网络新词汇良莠不齐、中英文混合词汇等状况,要打造出一款超卓的中文言语模型需求支付更多尽力。

  据浪潮论文泄漏, 源 1.0 硬件上运用了 2128 块 GPU,浪潮共搜集了 850TB 数据,终究清洗得到 5TB 高质量中文数据集。

  在练习功率方面, 源 1.0 练习用了 16 天, 图灵威 - 震天 用了一个多月,前者数据量是后者 3 倍有余,耗时却只有后者一半——

  大模型你来我往间能看出,开展已走入百家争鸣针锋相对的阶段,这给咱们带来新的考虑:AI 巨量模型已然不 凭空捏造 ,那怎么走向协作?

  表面上 威震天 - 图灵 (Megatron-Turing NLG)是第一次由两家科技巨子协作推出超大 AI 模型。

  其背面,两边不只组成了 超奢华 硬件阵型,在算法上也有交融。强强联合成为超大 AI 模型落地的一种新方法,

  比如浪潮的 源 1.0,和最初的 威震天 相同,也是由硬件厂商主导开发的超大规划自然言语模型。

  浪潮泄漏,实际上 9 月 28 日的发布会上,他们邀请了国内的学者和数家科技公司一起讨论未来 源 1.0 协作的可能性。

  在产业界,浪潮早就提出了 元脑方案 的生态联盟, 源 1.0 未来将向元脑生态社区内一切开发者敞开 API,一切参加生态的 AI 技能公司都可以使用 源 1.0 进行二次开发,然后制造出更强壮的功用。

  协作开发巨量模型能带来什么?李飞飞等闻名学者现已给出答案:当数据规划和参数规划大到必定程度时,突变终究能发生突变,GPT-3 便是先例。

  现在大模型越来越多,但未来要害还在于怎么纵横捭阖,打造归于一套敞开协作系统,让一切技能公司齐心协力。

  而 AI 巨量模型在这样的生态系统下会带来怎样的改变,在 源 1.0 等一大批模型敞开后,应该很快就能看见。

上一篇:人工智能能否代替人类? 下一篇:人工智能会说外语吗?自然言语与核算机言语刍议