91书院(91shuyuan.com)更新快,无弹窗!
能达到数千的级别。”</P>
“我留给大家的时间并不多,可能只允许你们失败一次。有任何问题及时跟我联络协调,不要硬着头皮耗,到最后耽误了整体的进度,奖金扣光!”</P>
孟繁岐平时对于薪水发放很好说话,但关键时刻也不会容许有人掉链子。</P>
想做chatGpt这样的通用模型,这一整套流程需要大家齐心协力完成,单只靠几个已经熟悉了这个过程的小团体就显得不够了。</P>
【指令微调】需要用量来堆,前世大家的总结是,【对没有见过的指令也能做出正确反馈】这种奇特的智能能力,是在模型训练的指令数量超过一定程度之后,自动出现的。</P>
很多家机构和模型,都在自己的训练过程中,发现了这样的现象。</P>
说难听点就是,大力出奇迹了,量变产生了质变,并没有谁提前预料到了这个结果。</P>
而另一个关键因素【代码训练】,则是大模型产生了【思维链】的一大主要原因。</P>
Gpt3的训练阶段,数据中没有包含任何代码,它基本不具备【思维链】能力。</P>
谷歌的paLm,含有大约百分之5左右的代码数据,最终得出的模型具备【思维链】的能力。</P>
达芬奇系列分出两支,其中一个对代码做了特训之后,发觉这一系列和后续变体,都获得了【思维链推理】的能力。</P>
2022年,有人就对市面上的大模型都进行了广泛的评估,发现所有针对代码进行过学习的语言模型,都具备很强的语言推理能力。</P>
这一发现,同样暂时没有得到比较合理的解释。</P>
前世大模型火了之后,孟繁岐原本的项目直接被砍,因而读这类的技术和论文很多。</P>
但读来读去,并没有读到任何确凿的证据和理论可以证明又或者是解释,代码就是大模型能够形成思维链又或者是进行复杂推理的原因。</P>
大家也只是发现了这样的观察结果,这两者之间存在相关性,不过未必就是因果关系。</P>
“目前我还没有看到谁将各种代码也加入到模型训练当中...”孟繁岐极大地加速了AI技术的发展,等到他推出350亿参数的chatGpt之后,有这个能力入场玩一玩的公司就不剩下多少了。</P>
对大多数人来说,光是把这个大小的模型塞进自己的服务器里,运行在显卡上,就已经是要了老命的事情了。</P>
如此大的模型规模,大家连训练比较常用的数据都难以负担,恐怕很难能够想到要把将代码也加入到文本当中来。</P>
这个小秘密,可能要等孟繁岐推出专门的代码大模型之后,才会有人注意到。</P>
“所以到底为什么让模型学习代码会有助于它的逻辑推理能力,以至于它在处理人类语言的时候也会有这么大的提升呢?”孟繁岐并不知道答案,这件事情在2023年也是未解之谜。</P>
“按理来说,代码是一种中间产物,属于人类语言和机器语言的中间地带。它跟人类语言的差距是非常大的,几乎没有什么相似之处。”closeAI内部曾经对这个问题进行过讨论,但没有什么特别有意义的结果。</P>
大家断断续续讨论了一两周,都猜测,也许是因为编程过程与人类逐步解决任务的过程非常类似。</P>
很多难题都不是可以一步到位的,问题也比较复杂,并不能简单进行答复。</P>
很可能需要分多个层次进行分析,讨论各种可能性。</P>
这就和编程当中的if语句有些类似。</P>
模型很可能从代码的方式中触类旁通,学会了对不同的假设场景给与不同的应对策略。</P>
而比较整体的代码项目,又会将一个相对复杂的任务,拆解为数个简单任务,做成不同的功能。</P>
这一点很可能是大量代码对大语言模型有很强效果的一大原因。</P>
总得来说,孟繁岐觉得这件事情还是非常有趣的。</P>
这些代码别说普通人了,他自己都有很多根本看不懂。</P>
因为收集代码数据集,涉及的各种不同语言太多,光是比较知名的就有十来种。&