Lychee-Rerank赋能互联网广告推荐:提升广告与用户意图匹配度

张开发
2026/4/14 13:01:48 15 分钟阅读

分享文章

Lychee-Rerank赋能互联网广告推荐:提升广告与用户意图匹配度
Lychee-Rerank赋能互联网广告推荐提升广告与用户意图匹配度你有没有想过为什么有时候你刚搜索完“周末去哪玩”下一秒刷资讯App看到的广告就是附近的酒店和景点这背后其实是一场关于“意图”的精准捕捉游戏。在互联网广告这个万亿级的赛道上谁能更懂用户此刻想要什么谁就能赢得更高的点击和转化。传统的广告推荐系统往往依赖于用户的历史行为标签和广告的静态属性进行匹配就像给用户贴上一个“喜欢数码”的标签然后一股脑地推荐所有数码产品广告。这种方法在早期很有效但随着用户需求越来越碎片化、场景越来越实时它的短板就暴露出来了它很难理解用户此时此刻的真实意图。比如一个“喜欢数码”的用户此刻搜索的可能是“手机屏幕碎了怎么修”他需要的不是新手机广告而是维修服务。这就是我们今天要聊的Lychee-Rerank能大显身手的地方。它不是一个全新的推荐系统而是一个强大的“意图校准器”。它的核心任务很简单当系统已经根据常规算法筛选出一批候选广告后Lychee-Rerank会出场对这批广告和用户当前的实时行为搜索词、正在看的文章内容进行深度语义匹配重新排序把最符合用户当下意图的广告推到最前面。1. 业务挑战当“静态标签”遇上“动态意图”在深入技术细节之前我们先看看广告业务实际面临的几个头疼问题。理解了这些痛点你才能明白为什么需要Lychee-Rerank这样的技术。1.1 意图的“时间窗口”极短用户的兴趣和意图是转瞬即逝的。早上通勤时可能想买杯咖啡午休时可能想看看外卖晚上睡前可能想买本书。传统基于长期兴趣画像的推荐反应速度跟不上这种快速切换。我们需要一个能理解“当前查询”的模型实时判断意图。1.2 语义鸿沟字面匹配的局限用户搜索“苹果”是想买水果还是买手机还是看一部叫《苹果》的电影广告主提交的标题“新款智能手机性能强劲”如何匹配用户搜索的“打游戏不卡的手机”字面匹配关键词匹配在这里完全失灵必须依靠语义理解看懂文字背后的意思。1.3 候选池嘈杂优质广告被淹没粗排模型可能会召回几百上千个候选广告。这里面必然混入一些相关性不强但因为某些特征如出价高、历史点击率高而排名靠前的广告。如果不进行精细的重排序真正符合用户意图的优质广告可能排在第几十位根本没有曝光机会导致平台收入和用户体验双输。1.4 效果衡量的直接性广告推荐的效果衡量非常直接和残酷点击率CTR、转化率CVR、广告收入RPM。任何改进都必须能实实在在地提升这些核心指标。因此技术方案不能是“花架子”必须能通过严谨的在线A/B测试证明自己的价值。面对这些挑战一个理想的解决方案应该像一位经验丰富的销售顾问不仅能记住客户的长期偏好历史画像更能专注倾听客户当前的问题实时查询并从一堆产品中精准挑出最符合当前需求的那一个优先推荐。Lychee-Rerank就是扮演了这位“顾问”的角色。2. 技术架构Lychee-Rerank如何扮演“意图校准器”Lychee-Rerank是一个专门为“重排序”任务设计的语义匹配模型。它的设计目标不是做海量候选的初筛而是在一个较小的、已过滤的候选集例如50-200个中进行精细的语义相关性打分和重排。下面我们拆解一下它在广告推荐系统中的工作流。2.1 整体架构设计一个集成了Lychee-Rerank的广告推荐系统其在线服务流程可以简化如下用户发起请求携带搜索词/浏览内容 ↓ [召回阶段] - 从海量广告库中快速召回数百个候选广告基于协同过滤、标签匹配等 ↓ [粗排阶段] - 使用轻量级模型对数百个广告进行初步打分和过滤得到Top K候选如Top 100 ↓ [精排/重排阶段] - **Lychee-Rerank登场** ├── 输入用户实时查询Query Top K候选广告的文本标题、描述 ├── 过程模型进行深度语义交互计算输出每个广告与查询的匹配分数 └── 输出根据匹配分数对Top K广告重新排序选出最终展示的Top N如Top 5 ↓ [广告展示与计费]这个流程的关键在于Lychee-Rerank处于决策链的末端直接决定最终展示给用户的广告顺序。它接收的是经过前面环节初步筛选过的、质量相对较高的候选集因此可以投入更多的计算资源进行精细的语义理解。2.2 Lychee-Rerank的核心技术原理简单来说Lychee-Rerank是一个“文本对”分类模型。但它不像传统方法那样简单地将两个文本分别编码再计算相似度而是采用了更先进的交叉编码器架构。传统双编码器像两个独立的读者分别阅读用户查询和广告文本各自生成一个语义向量然后计算两个向量的余弦相似度。速度快适合召回但语义交互不充分。Lychee-Rerank交叉编码器像一位同时阅读两份材料的裁判。它将用户查询和广告文本拼接在一起同时输入模型。模型在内部让查询的每个字和广告的每个字进行充分的“注意力”交互最终输出一个综合的匹配分数。这种方式理解更深精度更高但计算量更大。正是这种深度的、即时的语义交互能力让Lychee-Rerank能够精准判断“打游戏不卡的手机”和“新款智能手机性能强劲”之间的强相关性也能识别“苹果”在不同上下文中的真实含义。2.3 工程实践让模型高效落地在真实的广告系统中延迟和成本是生命线。Lychee-Rerank虽然比双编码器计算慢但通过一系列工程优化完全可以满足在线需求。候选集裁剪严格控制输入Lychee-Rerank的候选广告数量如50-100个这是平衡效果和延迟的关键。模型优化可以采用模型蒸馏、量化、剪枝等技术在基本保持精度的前提下大幅提升推理速度。高性能推理服务使用TensorRT、ONNX Runtime等优化过的推理框架并利用GPU进行批量并行计算处理一个用户请求内的所有候选广告对。异步处理与缓存对于一些热点查询或广告可以缓存重排结果进一步降低平均延迟。通过这些手段通常可以将Lychee-Rerank的调用延迟控制在几十毫秒内这对于广告推荐场景是完全可接受的因为带来的效果提升收益远大于这点延迟成本。3. 实战解析从代码到效果理论说得再多不如看实际怎么用。我们来模拟一个简单的场景看看Lychee-Rerank如何工作。假设用户在当前会话中搜索了“轻薄笔记本电脑适合出差携带”。我们的粗排阶段已经选出了5个候选广告它们的标题如下Ad_A: “高性能游戏本RTX显卡畅玩3A大作”Ad_B: “官方旗舰店新款智能手机限时优惠”Ad_C: “超轻薄商务本重量仅1kg长续航15小时”Ad_D: “家用打印机无线连接高清复印”Ad_E: “经典款笔记本电脑性价比之选学生专用”如果不使用重排序可能根据历史点击率或出价Ad_A或Ad_E会排在最前面。但显然Ad_C才是最匹配用户当前意图的。下面是一个极度简化的代码示例展示如何使用类似Lychee-Rerank的模型这里以SentenceTransformer的交叉编码器模型为例进行重排序计算。# 示例使用语义重排序模型对广告进行重新打分 from sentence_transformers import CrossEncoder # 1. 加载一个预训练的交叉编码器模型这里用一个小型模型示例 # 实际中Lychee-Rerank会使用针对中文和广告场景优化的大模型 model CrossEncoder(cross-encoder/ms-marco-MiniLM-L-6-v2) # 2. 用户当前查询与候选广告文本 query 轻薄笔记本电脑适合出差携带 candidate_ads [ 高性能游戏本RTX显卡畅玩3A大作, 官方旗舰店新款智能手机限时优惠, 超轻薄商务本重量仅1kg长续航15小时, 家用打印机无线连接高清复印, 经典款笔记本电脑性价比之选学生专用 ] # 3. 构建模型输入对将查询与每个广告文本配对 pairs [[query, ad] for ad in candidate_ads] # 4. 模型预测相关性分数分数越高表示越相关 similarity_scores model.predict(pairs) # 5. 将广告与得分组合并按得分降序排列 ranked_results list(zip(candidate_ads, similarity_scores)) ranked_results.sort(keylambda x: x[1], reverseTrue) # 6. 打印重排序结果 print(用户查询:, query) print(\n广告重排序结果得分从高到低:) for i, (ad, score) in enumerate(ranked_results, 1): print(f{i}. [得分: {score:.4f}] {ad})运行这段代码模型会给每个广告打出一个语义相关分。理想情况下Ad_C“超轻薄商务本...”会得到最高分Ad_A“游戏本”和Ad_E“经典款笔记本”可能次之而Ad_B“智能手机”和Ad_D“打印机”的分数会非常低。系统最终会按照这个新的分数顺序来展示广告。在实际的广告系统中这个分数还会与广告的出价、预估点击率/转化率等因素进行融合形成一个最终的排序分数但语义相关分在其中扮演了至关重要的“意图校准”权重。4. 价值呈现A/B测试与业务收益技术方案好不好最终要用业务效果说话。在互联网广告领域上线任何新策略都必须经过严格的在线A/B测试。4.1 如何设计A/B测试流量分割将线上用户流量随机分为两组比如各50%。A组对照组使用原有的推荐排序逻辑B组实验组使用引入Lychee-Rerank的新排序逻辑。确保两组用户在属性、行为上无系统性差异。核心指标监控点击率CTR实验组广告的整体点击率是否有显著提升转化率CVR对于效果广告点击后的下单、下载等转化行为是否增加广告收入RPM/ARPU千次展示收入或人均广告收入是否增长这是商业价值的终极体现。用户体验指标用户对广告的负面反馈如“不感兴趣”点击是否减少统计显著性需要运行足够长时间收集足够多的数据确保观察到的提升不是随机波动而是统计显著的。4.2 可能带来的收益提升根据业界类似实践的经验成功引入深度语义重排序模型后通常可以观察到点击率CTR提升这是最直接的收益。因为广告更相关了用户点击意愿自然增强。提升幅度可能在5%到15%甚至更高具体取决于原有系统的基线水平和场景。转化率CVR提升更精准的意图匹配意味着点击广告的用户本身就是潜在目标客户后续的转化链路会更顺畅。平台收入增长点击率和转化率的提升通常会直接拉动广告竞价生态的繁荣和平台收入。即使平均每次点击费用不变更多的点击和转化也会带来收入增长。广告主满意度提高广告主的预算花在了更可能对其产品感兴趣的用户身上投资回报率提升长期来看有利于平台生态健康。用户体验改善用户看到的广告不再是恼人的干扰而是可能对其有用的信息这会提升用户对平台的整体好感度和留存时间。5. 总结与展望回过头来看Lychee-Rerank在互联网广告推荐中的应用本质上是对“相关性”的一次升级。它把匹配逻辑从“标签”和“关键词”的层面提升到了“语义”和“意图”的层面。这不仅仅是技术的进步更是对用户体验和广告价值本质的更深层次理解。在实际落地过程中技术团队需要像打磨产品一样打磨这个重排序环节。从模型选型、效果调优到工程架构、性能压测再到严谨的A/B实验和数据分析每一步都至关重要。它不是一个“即插即用”的黑盒魔法而是一个需要与业务场景深度结合的系统工程。未来这个方向还有更多可能性。例如模型能否融合多模态信息用户正在看的图片或视频内容能否进行更细粒度的个性化理解同一个搜索词背后不同用户的细微意图差异能否实现端到端的联合优化将重排序与召回、粗排甚至出价策略更紧密地联动这些都是值得探索的方向。对于正在面临广告推荐效果瓶颈的团队来说引入类似Lychee-Rerank这样的深度语义重排序技术很可能是一个高性价比的突破点。它不需要推翻现有系统而是作为一个增强模块嵌入却能带来立竿见影的效果提升。不妨从一个小流量实验开始让数据告诉你答案。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章