201. ChatGPT的代价

章节报错(免登陆)
下载APP,无广告、完整阅读

91书院(91shuyuan.com)更新快,无弹窗!


    十万张泰坦Z,这下可是真真正正的核弹了。</P>
    并且这还只是显存与微软保持了一致,由于设备的年代差异,泰坦Z运算的速度还得比A100再慢上不少。</P>
    别的什么乱七八糟的都先不提,按泰坦Z的定价算,光是买这些显卡就得整整三个亿美金。</P>
    这笔钱孟繁岐现在肯定是掏不起的,就算他掏得起,老黄也掏不出那么多泰坦Z来。</P>
    并且,这十万张显卡也不是凭空就能计算的,相应的主板电源cpU等其他配套设备,你也不能太差吧?</P>
    彼此之间的交互通讯设备,也得配齐,否则发挥不出这些显卡的全部能力。</P>
    这些东西准备好,价格又得翻一倍,至少得五六个亿美金。</P>
    设备运转起来,跟挖矿特别像,光是每天需要的电费也是百万级别的天文数字,训练一整个chatGpt出来的成本自然不低。</P>
    只是想要得到这个模型,就得大几个亿美金进去。后续chatGpt提供给用户使用,所需要的算力和设备只会更多。</P>
    因为训练模型只是单个实体在持续更新自己的内容,耗费的资源虽多,却是一次性的,一劳永逸。</P>
    而用户在使用的时候则是多个内容不再变化的实体持续推理,模型则需要反复根据用户不同的新输入一直生成回复。</P>
    虽然推理比训练的损耗小了许多,但也架不住百万千万的用户一起使用。</P>
    当时微软为了chatGpt的广泛使用,在六十多个数据中心,给openAI腾出了几十万张GpU显卡,简直是壕无人性。</P>
    惹得自家的员工都嫉妒坏了,为什么他们openAI可以用,我们微软自己的员工用不了?</P>
    这不公平!</P>
    “chatGpt级别的模型的大小还是跟现在我做过的那些差了太远了。”孟繁岐在心中开始飞速地计算了起来。</P>
    他需要估算出,自己到底大概需要多少张泰坦Z,一会才好跟老黄讨价还价。</P>
    深度学习的模型参数很容易计算,不过算完总是容易忘记。</P>
    孟繁岐有一套独特的办法,使得他可以对各个经典模型参数量之间的比例基本上了如指掌。</P>
    那就是以郑爽为基本计量单位。郑爽日薪百来万,一年就是六七个亿,可以记录6.5亿为一爽。</P>
    经典的残差网络,也就是孟繁岐去年的成名作,差不多0.033爽。</P>
    chatGpt,1760亿参数,差不多250爽。</P>
    也就是说,孟繁岐目前经常训练的模型,参数量上距离chatGpt得有7600多倍的差距。</P>
    这实在是现阶段难以负担的规模。</P>
    “不过好在chatGpt的爆火后来引发了许多学者去思考如何将这个模型压缩得更小。”</P>
    孟繁岐对此感到庆幸,由于chatGpt规模实在太大了,导致绝大部分玩家都根本玩不起这个东西。</P>
    因而整个业界都在想办法,到底怎么样才能够以百分之一百分之二左右的规模做到类似、乃至接近chatGpt的效果。</P>
    “所以说,人穷也是有好处的,穷则思变嘛!”</P>
    若不是大家都玩不起250爽的大模型,又怎么会一个个都如此擅长把3到4爽大小的模型做好呢?</P>
    “我可以初步实现一版本十多亿左右参数的迷你chatGpt,这样我需要的显卡数量大约在800到1000张左右,总价两三百万美金,这就在我很容易负担的范围之内了。”</P>
    孟繁岐希望黄仁勋为谷歌大脑提供一大批显卡是没错,但如今的他可并不缺钱了。</P>
    显卡进了谷歌,势必要被分走一大部分,用途上,也不能够百分百自己说了算。</P>
    不如多花点钱,自己先做一个超算中心。</P>
    微软那样上万张A100的究极奢华十亿美金计算中心,孟繁岐做不起,但做一个大几百、乃至千张泰坦Z的规模,还是负担得起的。</P>
    不就是钱嘛!不差钱!</P>
    唯一的问题在于,不知道老黄的泰坦Z到底生产了多少。</P>
    毕竟虽然两边都有合作的意向,可若是存货不多,黄仁勋也不可能真的让孟繁岐把这批显卡全都自己搬走了。
章节报错(免登陆)
下载APP,无广告、完整阅读
验证码: 提交关闭