322. 沉迷游戏OpenAI（合）

91书院(91shuyuan.com)更新快，无弹窗！

“openAI那边的事情过段时间再看，眼下最重要的事情还是尽快出一版chatGpt。”
 虽然对openAI手头的事情比较感兴趣，不过事情还是要分清主次。
 前世chatGpt的出现震惊了整个世界，毫无疑问，它又强又聪明，跟它说话很好玩，还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。
 那么问题就来了：chatGpt是怎么变得这么强的？
 Gpt技术早已有之，为何此前并没有如此强劲的威力呢？
 这个问题最浅显的回答当然是数据和模型的规模，在前世，17到19年，大家还普遍在玩几个亿大小的人工智能模型。
 结果chatGpt直接就把这个数字干到了1750亿。
 整整一千多倍的差距，使得人工智能模型在知识密集型任务上的性能实现了飞跃。
 人们普遍认为，更多的模型参数记住了更多的知识。
 数据则是另一大原因，三千亿单词的文字库加上Gpt的模式，两者强强结合，产生了神奇的化学反应。
 孟繁岐认为这些很容易想到的观点是正确的，但只靠这两者还远远不够。
 一个非常好的例子就是Gpt3，chatGpt实际上是Gpt3.5版本。
 Gpt3最初版的模型大小并不逊色于chatGpt，训练使用的数据也相差不多，但实际的能力和效果确是天差地别。
 不能说Gpt3很弱，因为在很多任务上，它都挺出色地回应了很多指令。但同样的，在许多任务上，它的性能会非常诡异地逊色于远远小于它的模型。
 因此，如果考虑到我们想要追求的是一款比较全面的通用智能的话，的确可以说Gpt3不咋地。
 可前世后来的许多研究都表明，其实Gpt3有着很大的潜力，这些能力后来通过代码训练，指令微调和基于人类反馈的强化学习解锁，最终版本终于展现出了强大的威力，成为了chatGpt。
 “首先，我要做的就是先获得一个初始的Gpt3，不过我现在很难做1750亿参数那么大，最多只能做到350亿参数左右。”
 孟繁岐选择这个大小，是根据最新的p100显卡的显存深思熟虑之后的结果。
 这里其实并不存在放不下放得下的问题，前世chatGpt使用的A100显卡也就只有80G的显存，想放下1750亿参数那是痴人说梦。
 孟繁岐有着一套拆分模型的招式，能够无限制地将庞大的模型拆分到不同的显卡上面。
 理论上来说，只要显卡够多，他就能够无限制地训练更加庞大的模型。
 如果100张可以训练100亿参数，那么张就能训练亿参数。
 可理论终究是理论，同时调度过多的显卡是非常痛苦的事情。
 单张显卡出状况，很有可能好几周的成果都会受到影响。
 孟繁岐出于风险的控制，选择了350亿的大小，他有信心可以将最后的结果做得跟初版1750亿参数的chatGpt相差无几。
 获得最基础的Gpt3模型并不困难，基础的模型结构一年半之前，孟繁岐就已经实现了许多。
 庞大的人工智能模型只是最基础最核心结构的反复堆叠，并不需要从头仔细设计一个不同的版本。
 就像是二阶魔方和三阶魔方的区别，基础的模块是那一个个小方块，二阶魔方拥有2x2x2一共8个方块，三阶魔方则有3x3x3，一共27个方块。
 基本元素没有任何的改变，只是数量上变多了。
 而这些参数的设置，除了最好是2的N次方之外，通常也没有什么特别的规矩和道理。
 因此，只要单纯地将此前已经做过的Gpt系列模型放大、加深，孟繁岐就已经获得了一个350亿左右参数的Gpt3模型。
 但想要将这个大小的模型给训练起来，那可就麻烦了。
 “350亿参数的模型，参数

章节报错（免登陆）

下载APP，查看完整内容

验证码：提交关闭