最近,快手首次推出一种生成式强化学习的出价技术,并将其应用到大规模广告系统中。这项技术明显提高了广告竞价的智能化程度,使出价策略从以往的“根据当前状态做决定”转变为“考虑整个过程的决策”,在帮助广告主提高投放效果的同时,也增加了平台的收入,实现了双方共赢。从2025年开始,这项技术已经让快手广告收入增长了3%。
广告出价是实时竞价中的关键部分。它连接广告主和流量资源,需要在各种限制条件下找到最佳的投放方式。
这个过程有三个主要难题。第一,要控制花费同时还要提升效果。广告主不仅要确保每天的支出不超过预算,还要尽量减少每次转化的成本,做到成本和效益的双重优化。
第二,未来情况难以预测。系统无法提前知道接下来的流量变化和竞争对手的动向,只能依靠实时数据调整出价策略,适应市场的变化。
第三,每次出价都会影响后续的决策。出价不仅决定了广告是否展示,还会影响账户的剩余预算,从而影响之后的出价判断,形成一个连续的过程。
快手的出价技术经历了三次发展。第一次是PID控制,基于当前状态与目标之间的差异进行调整,但适应性差,难以应对复杂环境;第二次是MPC预测模型,可以预测短期未来并做出优化,但预测范围有限,容易陷入局部最优;第三次是强化学习,通过历史数据学习不同情况下的最佳出价策略,兼顾效果和安全。
虽然强化学习在自动出价中表现不错,但它的决策依赖于单一时刻的状态信息,对长时间序列的数据利用不足。而生成式模型擅长处理序列数据,但在直接优化收益方面能力有限。
为了解决这个问题,快手结合两种技术,开发出生成式强化学习出价技术。它保留了生成模型处理序列数据的能力,同时加入强化学习的目标导向机制,让出价策略在长序列中更有效。
在使用生成模型优化出价时,遇到两个主要问题:一是对高质量数据的依赖大,限制了通用性;二是生成模型不容易直接优化整体收益,导致出价策略与广告主的整体目标不一致。
为此,快手研发了GAVE和CBD两种算法。GAVE结合了评分机制和价值函数引导的探索策略,增强了离线训练中的探索能力,帮助团队在NeurIPS 2024自动出价竞赛中获得双赛道冠军。
CBD则专注于解决生成模型和优化目标之间的匹配问题,引入了“补全”和“对齐”两个模块,通过补全未来的状态轨迹并进行校准,使出价策略更符合广告主的实际需求,提升了长期规划能力和决策的透明度。
从2025年开始,这项技术已经在快手广告系统全面应用,带来了3%的收入增长。在多个关键指标上取得进展,例如在成本控制场景中,消耗增加了2.0%,CPA达标率提高了1.9%。
未来,快手将从两个方向继续改进。一个是建立出价的基础大模型,整合多场景数据,实现更广泛的适用性;另一个是发展出价推理大模型,借助大语言模型提升分析能力和复杂决策水平。
快手将持续推动自动出价技术向更高层次的智能发展,为数字营销带来新的动力。
