91书院(91shuyuan.com)更新快,无弹窗!
每核心独立的DVFS,每个核心可以根据自己的负载独立调整电压和频率。这个优化把天权4号在典型应用场景下的功耗降低了百分之十二,峰值性能提升了百分之八。」
李明哲看着示波器上的波形,每个核心的电压曲线都不一样,有的在高频运行,有的在低频待机,有的在中间状态快速切换。整个波形看起来像一座繁忙城市的天际线,高低错落,但整体平稳。
「晶片间一致性增强呢?」李明哲问。
章宸带他走到另一台测试设备前,屏幕上显示着十颗晶片的测试数据对比。
「之前我们发现,不同晶片之间有一些微小的性能差异——同样的测试向量,有的晶片跑得快一点,有的慢一点,差距在百分之一到百分之三之间。这个差异对终端用户来说感觉不到,但对伺服器和数据中心的应用来说,百分之一的差异就意味着机群需要做额外的负载均衡和性能补偿。」
「我们的解决方案是——在生产测试阶段,对每颗晶片做性能分级。分成金丶银丶铜三个等级,每个等级内的晶片性能差异控制在百分之零点五以内。客户可以根据自己的应用需求选择合适等级的晶片。对性能一致性要求高的伺服器客户,可以只买金级晶片,价格贵百分之十五。对性能一致性要求不高的消费电子客户,可以买银级或铜级,性价比更高。」
李明哲点了点头。「这不只是技术方案,也是商业模式。」
「对。陈醒说这叫『精细化定价』——不是一刀切地卖晶片,而是根据晶片的真实性能做分级,让客户为恰好需要的性能付费,不为用不到的性能买单。」
上午九点,首轮工程改良评审会正式开始。
会议室在验证大厅的二楼,一面墙是玻璃,可以俯瞰整个验证大厅。章宸坐在长桌的一端,两侧是晶片团队的骨干工程师,以及从合城赶来的老韩和苏黛。陈醒通过视频参加会议,屏幕投影在墙上的大屏幕上。
章宸打开终端,把评审材料投在大屏幕上。
「天权4号首轮工程改良,三个目标。第一,NPU调度器RTL重写后的功能验证。第二,动态电压频率调整算法的功耗优化验证。第三,晶片间一致性增强方案的有效性验证。」
他翻到第一页,是一张NPU调度器的状态机图。
「NPU调度器的RTL重写,我们把仲裁逻辑从优先级固定改成了轮询加权重的混合模式。每个核心的请求都有一个权重计数器,被服务过的核心权重降低,长时间未被服务的核心权重升高。这种模式从根本上消除了优先级反转的可能性,同时保证了高优先级任务的实时性。」
「验证团队做了三百万个随机测试向量,覆盖了所有可能的时序组合。另外还做了针对性的一百个边界条件测试,专门模拟最极端的竞争场景。全部通过。功耗和面积的影响——功耗增加了百分之零点三,面积增加了百分之零点五,在可接受范围内。」
台下有人提问:「轮询加权重的混合模式,延迟的确定性怎么样?最坏情况下的响应时间是多少?」
章宸调出了一张延迟分布图。
「旧调度器的最坏情况响应时间是十二个时钟周期,平均三个周期。新调度器的最坏情况响应时间是八个周期,平均四个周期。最坏情况变好了,平均情况变差了一点。但对NPU的实际工作负载来说,四个周期和三个周期的差别可以忽略。更重要的是——新调度器的响应时间是可预测的,有确定的上界。旧调度器理论上存在无限期阻塞的可能,虽然概率极低。」
提问的工程师点了点头,坐下了。
评审的第二部分,是功耗优化。
负责功耗优化的工程师叫小谭,三十出头,是章宸从一家晶片设计公司挖来的。他走到屏幕前,调出了功耗测试的对比数据。
「旧版DVFS算法,全局同升同降,典型应用场景的平均功耗是三点二瓦。新版每核心独立DVFS,平均功耗降到二点八瓦,降低了百分之十二点五。峰值性能从每秒四万亿次运算提升到四点三二万亿次,提升了百分之八。」
「降功耗的核心是两点——第一,细粒度的负载检测。旧版算法每毫秒检测一次负载,新版每零点一毫秒检测一次,响应更快。第二,预测性的频率调整。小芯的AI模块可以根据应用的行为模式预测未来的负载变化,提前调整频率,避免频繁的电压跳变。频繁跳变的功耗损耗很大,预测性调整可以避免百分之六十的无用跳变。」
陈醒在视频里问了一个问题:「每核心独立DVFS,对电源管理晶片的要求是不是更高了?」
小谭调出了电源管理晶片的规格对比。
「是的。旧版只需要一路可调电源,新版需要四路——每个核心一路。电源管理晶片的复杂度增加了,成本增加了大约八块钱。但整机的功耗降低了百分之十二点五,对手