322. 沉迷游戏OpenAI(合)

章节报错(免登陆)

91书院(91shuyuan.com)更新快,无弹窗!

    “openAI那边的事情过段时间再看,眼下最重要的事情还是尽快出一版chatGpt。”</P>
    虽然对openAI手头的事情比较感兴趣,不过事情还是要分清主次。</P>
    前世chatGpt的出现震惊了整个世界,毫无疑问,它又强又聪明,跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。</P>
    那么问题就来了:chatGpt是怎么变得这么强的?</P>
    Gpt技术早已有之,为何此前并没有如此强劲的威力呢?</P>
    这个问题最浅显的回答当然是数据和模型的规模,在前世,17到19年,大家还普遍在玩几个亿大小的人工智能模型。</P>
    结果chatGpt直接就把这个数字干到了1750亿。</P>
    整整一千多倍的差距,使得人工智能模型在知识密集型任务上的性能实现了飞跃。</P>
    人们普遍认为,更多的模型参数记住了更多的知识。</P>
    数据则是另一大原因,三千亿单词的文字库加上Gpt的模式,两者强强结合,产生了神奇的化学反应。</P>
    孟繁岐认为这些很容易想到的观点是正确的,但只靠这两者还远远不够。</P>
    一个非常好的例子就是Gpt3,chatGpt实际上是Gpt3.5版本。</P>
    Gpt3最初版的模型大小并不逊色于chatGpt,训练使用的数据也相差不多,但实际的能力和效果确是天差地别。</P>
    不能说Gpt3很弱,因为在很多任务上,它都挺出色地回应了很多指令。但同样的,在许多任务上,它的性能会非常诡异地逊色于远远小于它的模型。</P>
    因此,如果考虑到我们想要追求的是一款比较全面的通用智能的话,的确可以说Gpt3不咋地。</P>
    可前世后来的许多研究都表明,其实Gpt3有着很大的潜力,这些能力后来通过代码训练,指令微调和基于人类反馈的强化学习解锁,最终版本终于展现出了强大的威力,成为了chatGpt。</P>
    “首先,我要做的就是先获得一个初始的Gpt3,不过我现在很难做1750亿参数那么大,最多只能做到350亿参数左右。”</P>
    孟繁岐选择这个大小,是根据最新的p100显卡的显存深思熟虑之后的结果。</P>
    这里其实并不存在放不下放得下的问题,前世chatGpt使用的A100显卡也就只有80G的显存,想放下1750亿参数那是痴人说梦。</P>
    孟繁岐有着一套拆分模型的招式,能够无限制地将庞大的模型拆分到不同的显卡上面。</P>
    理论上来说,只要显卡够多,他就能够无限制地训练更加庞大的模型。</P>
    如果100张可以训练100亿参数,那么张就能训练亿参数。</P>
    可理论终究是理论,同时调度过多的显卡是非常痛苦的事情。</P>
    单张显卡出状况,很有可能好几周的成果都会受到影响。</P>
    孟繁岐出于风险的控制,选择了350亿的大小,他有信心可以将最后的结果做得跟初版1750亿参数的chatGpt相差无几。</P>
    获得最基础的Gpt3模型并不困难,基础的模型结构一年半之前,孟繁岐就已经实现了许多。</P>
    庞大的人工智能模型只是最基础最核心结构的反复堆叠,并不需要从头仔细设计一个不同的版本。</P>
    就像是二阶魔方和三阶魔方的区别,基础的模块是那一个个小方块,二阶魔方拥有2x2x2一共8个方块,三阶魔方则有3x3x3,一共27个方块。</P>
    基本元素没有任何的改变,只是数量上变多了。</P>
    而这些参数的设置,除了最好是2的N次方之外,通常也没有什么特别的规矩和道理。</P>
    因此,只要单纯地将此前已经做过的Gpt系列模型放大、加深,孟繁岐就已经获得了一个350亿左右参数的Gpt3模型。</P>
    但想要将这个大小的模型给训练起来,那可就麻烦了。</P>
    “350亿参数的模型,参数
章节报错(免登陆)
验证码: 提交关闭