随着近年来人工智能的飞跃发展,机器学习被广泛应用于广告、电商、安全等多个领域。其中,广告业务因其数据计算量庞大、计算效率要求高的特性,被视作机器学习成果应用的试金石。如何运用机器学习规模化地解决广告提效难题,亦是业界在技术应用层面的重点课题。目前在腾讯广告系统的全面升级中,广告提效的技术应用取得了关键进展。
秉承“技术提效”理念,腾讯广告将北京大学-腾讯协同创新实验室(以下简称:联合实验室)两项入选国际顶级学术会议VLDB 2022与WWW(国际万维网大会)的前沿机器学习技术应用于广告业务场景中,为腾讯广告系统的“太极机器学习平台”与“千亿参数大模型”的落地持续赋能,助力系统成为腾讯广告全域经营坚实的技术底座。这一次的系统升级,不仅是对“技术提效”理念的充分实践,更彰显了腾讯广告将前沿技术能力转化为业务价值的行动力。
前沿技术持续提效
“从技术的角度理解业务,从业务的角度审视技术,让技术演进推动业务增长”是腾讯广告所秉承的技术原则。借助“腾讯广告系统全面升级”这一练兵场,腾讯广告为联合实验室的技术成果落地“量体裁衣”:
当下互联网生态,每天产生至少百亿规模的数据样本,而广告推荐场景更需要对复杂条件做分析和判断,其中涵盖的特征数量可达千亿甚至万亿规模。特征的多变性与成长性,亦对广告系统的学习能力提出了更高的要求。为此,腾讯基于联合实验室提出的自动化建模超大规模图网络的可拓展图学习理论(PaSca),自研Angel Graph图计算框架,降低大规模图神经网络模型训练的门槛,提升了系统的数据学习效率。获益于此,腾讯广告系统在不同推荐场景的灵活性与准确性得到极大提高,可根据各个平台用户的特点实现快速精准推荐,更能结合页面和上下文信息,通过强化场景差异性表达,提升投放效果。
另一方面,广告业务对数据理解与运算的速度、质量要求远超其他业务场景,甚至要在毫秒间完成复杂的计算与匹配。为提升广告运算的效率和准确性,当下业界多采用千亿和万亿参数规模的超大模型优化对高维特征的理解,并实现组合特征的计算匹配。超大模型的训练落地与持续推理成长,已经成为当下广告平台的一大技术壁垒,而机器学习的训练推理能力恰好在其中发挥关键作用。如果将大模型比作广告场景赛道上奔腾的赛车,那么机器学习技术就是驱动赛车的引擎,引擎质量的好坏,很大程度上决定了赛车能不能跑得快、跑得稳。为此,技术团队巧用联合实验室成果,从搭基建、提速度两个思路出发,为大模型训练落地提供技术支持。
基建层面,依托于联合实验室研发的新一代分布式深度学习平台Angel4.0,腾讯广告自主研发出AngelPS 技术,并将其作为太极机器学习平台的核心组件落地应用于广告系统。在AngelPS的助力下,太极机器学习平台单模型处理上限提升至10TB级别,更能实现7X24小时的在线深度学习与推理,自此,广告系统学习、推理海量广告数据的稳定性与扩展性得到了极大提升,让超大规模广告模型的生产和使用成为现实。速度层面,腾讯广告基于联合实验室提出的稀疏大模型训练加速解决方案AngelRec,自主研发高性能预训练框架AngelPTM,为超大规模广告模型的训练速度、维度与精度加足马力。
助力广告主生意增长
在两项技术的合力加持下,腾讯广告完成“一大平台两大模型”的重要突破——基于太极机器学习平台,训练出混元AI大模型与广告大模型,强化了腾讯广告系统的理解能力与运算能力,高效达成广告主最关心的“起量、成本和稳定性”三大指标。
腾讯广告系统
随着腾讯广告系统的全面升级,当下广告场景效果转化的确定性与转化效率均得以提升,为广告主们带来生意增长。未来,腾讯广告亦将持续践行“技术提效”思路,立足于腾讯与清华大学、中科院计算所等多所高校的产学研布局与研发成果,深挖机器学习、大数据与自然语言处理等多个前沿领域,持续探索广告业务在产学融合层面的新航图。