91书院(91shuyuan.com)更新快,无弹窗!
加,可以非常好地把握用户的喜好。只是如果用户从未看到某些类型的话,系统也难以判断,在初期会遭遇上述的冷启动问题,不知道该不该推某些类别。</P>
当然了,这是非常笼统论述,实际的操作更加复杂。</P>
“现在国内在这方面大部分都是模仿你在谷歌为油管设计的那一套办法。”张一名此前刚刚自学了一套传统办法,结果推荐系统就被AI革新了一轮。</P>
孟繁岐在谷歌的中前期,为了扩大自己的分成比例,做了一些推荐搜索方面的优化,其中就包括替油管准备的一套方法。</P>
针对网页和推荐广告的那部分,谷歌是不可能放出来的,毕竟那是谷歌8成收入来源的一个重大提升。</P>
而油管这方面,虽是世界级的视频网站,但在营收方面占比还是拉胯了一点,加上孟繁岐的做法也比较糙,因而迟些时候谷歌还是选择了公布。</P>
“其实我在那个工作里没有投入太多精力,就只是率先把深度网络的那一套给搬进去了,做了一些专项的适配。”孟繁岐着实也不是谦虚,那段时间太忙了,油管这边属于营收小头,孟繁岐没有当成主要任务在做,各方面都不够细致。</P>
“你这话说得,传出去能把人气死。油管怎么说也是十几亿用户的头部长视频平台,哪有你说得那么好做?”张一名是内行人,他知道以油管的规模,是有几个巨大挑战的。</P>
“油管体量大,我自己测试很多推荐算法,小规模问题都做得非常好,但体量上到千万、亿级别就很容易出问题,更别提油管的十亿级别了。”张一名在头条上推荐的东西测得很多,其中的难点知晓得很清楚。</P>
“用户多了,每秒的新内容上传数量也很庞大,系统不仅要处理好原本十亿级别的视频,还得对最新上传的内容及时更新建模。”张一名摇了摇头,以他自学推荐方法的经历,一时间根本想象不到这个难题得怎么去解决。</P>
“油管当时是用了十亿级别的参数,用了千亿的训练样本。主要是用了两个神经网络,一个生成视频候选,一个用于排序重要性。”谷歌虽然公布了这部分内容,但是多少有点语焉不详,自然不如算法主导人孟繁岐介绍得简明清楚。</P>
“主要是从用户的历史行为获取输入,从视频库检索数百个视频,尽量通过粗粒度的特征去筛选,因为规模上去之后噪声的为是相当夸张的。对于检索出来的百余视频,再根据细粒度特征用排序网络区分召回,分析相对的重要性,最终构成最佳推荐列表。”</P>
这种粗排,精排,深度网络替代传统办法和树方法的模式,已经在国内外广泛流行了起来,可以说孟繁岐年初时分在谷歌做的这一套模式,如今已经成为了视频推荐的基本范式。</P>
只不过孟繁岐自己早已经鸟枪换炮。</P>
“我们现在稳定的一个版本也是遵循这个粗排候选生成,精排最后视频结果的模式,不过我注意到其实大部分厂商标注出来的数据是有很大的系统偏差的。有时候用户点了排在前面的视频,并不是因为喜欢,而是因为...他们只看到了最上面的那些,根本没有去看余下的部分。”</P>
“如果不关注这种偏差的话,那么它就会形成闭环回路,反馈回来的结果只会让模型越来越自信于自己的推荐,然而实际上用户的体验已经是一团糟了。”</P>
孟繁岐前世对推荐系统的了解没有本职图像和大模型那么多,但是对于许多重要更新的要点和思路还是记得清楚的。</P>
只消与一些公司内专业的核心技术人士沟通个几次会议,算法就能基本成型。</P>
与张一名再聊了一些细节,时间越久,张一名越觉得思路开阔,视野渐宽。内心之中不由得深深佩服,这家伙怎么就能做到多个主流领域的AI相关领域个个精通的呢?</P>
老板自己就是第一线的技术人员,怕是他们公司的程序员干活都压力要大上不少啊!</P>
“明天我就去尚海那边了,有个AI峰会,你去不去?”与张一名达成了协议,孟繁岐来到燕京的主要任务算是完成了。</P>
孟繁岐未敢忘记正事,明日便启程尚海,准备参加三天后的AI峰会。</P>
“我听说,现在国内的互联网三巨头,马芸,小马哥还有李彦弘,都会出席?那还是AI峰会吗?不是变互联网峰会了!”张一名也大概了解AI峰会的情况,毕竟AI这个圈子,说到底其实是大半个互联网圈子。</P>
“我就不去了,他们几个都是去看投资机会的,我这还是被投的公司,暂时分不出那个精力。不过我有个关系不错的朋友,王星估计会在那边,你也知道,这两天搞美团搞得风生水起的那位。”