91书院(91shuyuan.com)更新快,无弹窗!
“openAI那边的事情过段时间再看,眼下最重要的事情还是尽快出一版chatGpt。”</P>
虽然对openAI手头的事情比较感兴趣,不过事情还是要分清主次。</P>
前世chatGpt的出现震惊了整个世界,毫无疑问,它又强又聪明,跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。</P>
那么问题就来了:chatGpt是怎么变得这么强的?</P>
Gpt技术早已有之,为何此前并没有如此强劲的威力呢?</P>
这个问题最浅显的回答当然是数据和模型的规模,在前世,17到19年,大家还普遍在玩几个亿大小的人工智能模型。</P>
结果chatGpt直接就把这个数字干到了1750亿。</P>
整整一千多倍的差距,使得人工智能模型在知识密集型任务上的性能实现了飞跃。</P>
人们普遍认为,更多的模型参数记住了更多的知识。</P>
数据则是另一大原因,三千亿单词的文字库加上Gpt的模式,两者强强结合,产生了神奇的化学反应。</P>
孟繁岐认为这些很容易想到的观点是正确的,但只靠这两者还远远不够。</P>
一个非常好的例子就是Gpt3,chatGpt实际上是Gpt3.5版本。</P>
Gpt3最初版的模型大小并不逊色于chatGpt,训练使用的数据也相差不多,但实际的能力和效果确是天差地别。</P>
不能说Gpt3很弱,因为在很多任务上,它都挺出色地回应了很多指令。但同样的,在许多任务上,它的性能会非常诡异地逊色于远远小于它的模型。</P>
因此,如果考虑到我们想要追求的是一款比较全面的通用智能的话,的确可以说Gpt3不咋地。</P>
可前世后来的许多研究都表明,其实Gpt3有着很大的潜力,这些能力后来通过代码训练,指令微调和基于人类反馈的强化学习解锁,最终版本终于展现出了强大的威力,成为了chatGpt。</P>
“首先,我要做的就是先获得一个初始的Gpt3,不过我现在很难做1750亿参数那么大,最多只能做到350亿参数左右。”</P>
孟繁岐选择这个大小,是根据最新的p100显卡的显存深思熟虑之后的结果。</P>
这里其实并不存在放不下放得下的问题,前世chatGpt使用的A100显卡也就只有80G的显存,想放下1750亿参数那是痴人说梦。</P>
孟繁岐有着一套拆分模型的招式,能够无限制地将庞大的模型拆分到不同的显卡上面。</P>
理论上来说,只要显卡够多,他就能够无限制地训练更加庞大的模型。</P>
如果100张可以训练100亿参数,那么张就能训练亿参数。</P>
可理论终究是理论,同时调度过多的显卡是非常痛苦的事情。</P>
单张显卡出状况,很有可能好几周的成果都会受到影响。</P>
孟繁岐出于风险的控制,选择了350亿的大小,他有信心可以将最后的结果做得跟初版1750亿参数的chatGpt相差无几。</P>
获得最基础的Gpt3模型并不困难,基础的模型结构一年半之前,孟繁岐就已经实现了许多。</P>
庞大的人工智能模型只是最基础最核心结构的反复堆叠,并不需要从头仔细设计一个不同的版本。</P>
就像是二阶魔方和三阶魔方的区别,基础的模块是那一个个小方块,二阶魔方拥有2x2x2一共8个方块,三阶魔方则有3x3x3,一共27个方块。</P>
基本元素没有任何的改变,只是数量上变多了。</P>
而这些参数的设置,除了最好是2的N次方之外,通常也没有什么特别的规矩和道理。</P>
因此,只要单纯地将此前已经做过的Gpt系列模型放大、加深,孟繁岐就已经获得了一个350亿左右参数的Gpt3模型。</P>
但想要将这个大小的模型给训练起来,那可就麻烦了。</P>
“350亿参数的模型,参数