为了账号安全,请及时绑定邮箱和手机立即绑定

Uphlift背后的AI技术究竟是怎样的?

由 Andreu Mora · 高级副总裁 (SVP) / 全球工程数据负责人,Adyen

Adyen Uplift — visualization of one rich data set.

Adyen Uplift成功试点后的正式发布之后,我们觉得深入探讨Uplift背后的工程与科学很有意思。这篇笔记接着前面发表的博客文章“Adyen 如何使用 AI”,我们在那篇文章中解释了 Adyen 对 AI 的理解,以及我们在这一领域中的整体进展和方向。本文将探讨 AI 在优化通过平台的每笔交易中所起的作用。

AI是唯一前进的道路

与Adyen提供从头到尾的服务的概念类似,单笔交易也是如此。支付流程中的每个步骤都是互相联系的。支付流程形成了一个复杂的依赖关系网。例如,客户的支付体验取决于预测的风险,而预测风险又会根据认证结果及支付方式选择来调整,这又会影响整个成本。如果支付失败,也会决定如何重试。

为了应对这一复杂过程,我们投资开发了一个系统,该系统能够在整个支付过程中做出最优的全局决策。支付旅程中的

同时,人类喜欢掌控和理解,即使这会导致许多错误。为了满足这种需求,例如(遗留的)RevenueProtect系统提供了一个无尽的条件选项来形成规则(“如果这样,那么那样”)。虽然表面上的掌控感是受欢迎的,但真正重要的是数据。的确,任何系统的质量不是由其设计决定的,而是由其表现来衡量的。将这两个前提结合起来考虑,以实现复杂性与规模的扩展,同时提供最大的全局而非局部性能,唯一的方法是让机器来做决定。考虑到模式的复杂性,唯一前进的方式就是让机器从数据中学习这些规律(注意:它并不查看所有数据,后面会进一步介绍)。

在任何人工智能的应用场景中,人类的角色不是与机器争夺决策权或内容,而是监督机器的表现。

这篇帖子介绍了一些关于Uplift的AI背后的一些决策和考虑、工程和科学。

第一章:概念

在过去,我们部署了机器学习模型来局部地优化交易的每一步骤。例如,一个欺诈模型会预测欺诈的可能性,并在预测的概率超过阈值时阻止交易。而一个完全不知情的认证模型会决定对某个用户来说哪个路径最佳(例如,SCA豁免或3DS1认证路径)。

Uplift背后的AI改变了这一范式。它围绕决策过程设计,包括多种类型的机器学习模型。这些模型相互之间共享意识和知识。这些模型通过强化学习全局进行优化,并共享同一个目标:在欺诈、成本和转化之间找到平衡。

第二部分:工程技术

让我们来看看2023年Adyen平台的一些数字。

  • 平台处理量达1万亿美元
  • 年同比增长26%
  • 交易处理SLA:1秒(包括大约600毫秒的收单通信)

现在,我们来看看Adyen平台在2024年黑色星期五和网络星期一这四天的表现。

  • 交易数量:67亿笔
  • 每分钟交易峰值:16.3万笔(每秒2700笔交易)
  • API请求峰值:每秒2.5万次请求
  • API正常运行时间:99.9999%

虽然这些数字令人惊叹的,特别是当我们考虑到所有这些交易都是通过Adyen平台由AI驱动时,更是令人震惊。每个交易都经过了2到5个不同的AI端点,在每个端点上,机器学习模型都在做决策,每个端点的延迟时间仅为20毫秒(中位值)。

这是可能的,由于一系列精心设计和制造的零部件。

请注意:Adyen 所有关键流程都在本地运行。这意味着这里提到的所有组件,包括计算设备,均由 Adyen 设计、工程开发、部署、测试和运营。从提到的技术栈可以看出,我们高度依赖开源技术。一旦基础设施到位,端到端的所有权和控制整个垂直系统,使我们能够快速部署更新,而无需依赖第三方。

特色平台

AI与一个功能平台相连,该平台为训练和推理服务提供低延迟、高基数、高流量、多地域的输入特征向量。对于慢速和复杂的特征,我们使用通过Spark进行分布式计算处理,而对于快速计算出的特征,我们使用Apache Flink进行计算,并将其存储和提供服务给部署在全球各地不同数据中心的Cassandra后端,以满足本地化和延迟需求。

特性服务平台允许每个特征的数量可以达到数十亿,并且提供毫秒级延迟的服务。我们在这次Codemotion 2023的演讲和这篇博客文章中详细介绍了平台的设计和决策。

推断服务

在训练一个模型之后,会将其模型的保存文件注册、存储并提供。推理服务(我们称之为“阿尔弗雷德”)让科学家能够创建实验,选择模型,设定基准,并按照科学家定义的流量比例部署模型。

阿尔弗雷德创建了一个内部API端点,该端点连接到支付流程(这是一个非常关键的流程),并确保每个请求的响应时间p50为20毫秒,p99为100毫秒。对于这样的结果而言,文件大小和服务架构至关重要。顺便说一句,我们已经非常擅长删除numpy或pandas pickles中的任何索引、元数据或辅助路径。简洁至极!

推理服务还负责模型管理。我们每次部署都采用主模型-挑战者模型(一次部署即一次实验,见下文)。Alfred 会将一个且仅一个模型标记为“主模型”,这是我们在绝大多数流量中部署的,提供最强性能的模型。在实验中推出的新模型会部署在不同的阶段:(1)“幽灵”,我们仅记录遥测和统计数据,不会影响任何结果;(2)“挑战者”,我们会影响特定流量的结果,并记录遥测数据。当挑战者模型通过统计测试证明比主模型更强时,我们会将主模型退役(标记为“退役”),并将挑战者模型提升为新的主模型。

实验服务功能

所有模型部署都在实验服务的基础上运行,该服务用于以科学的方法量化每个模型(无论是主要模型、影子模型还是挑战者模型)的性能,并将其作为实验来进行。我们通过A/B/n测试并比较每个模型与统一的对照模型的统计数据来实现这一点,并确保通过逐步推出实验来积累经验,从而验证一个假设。

统一控制组是交易中所有元素保持一致的流量分割部分,该组内模型不会采取任何行动。它确实用于追踪交易,并作为所有模型的基准比较。请注意,我们仍然会对控制组进行操作,因为我们定义的基准是“市场标准”——即任何熟练的支付提供商都会提供的支付体验的质量。对我们来说,这个基准包括阻止我们已知的被盗卡片、SCA(强客户认证)豁免、强制使用网络令牌,并在认证失败时重新尝试。这使我们的系统计算出的提升率更准确,但较低。

第三部分:规模:
实体识别

在Adyen的数据存储中之一是一个图,它链接交易属性以便识别实体。这是一份强大的信息资源,我们可以利用它来建模和提取特征,以及进行训练。

在PCI、GDPR等严格指导原则的指引下,结合我们对高标准伦理准则的坚持立场,我们可以利用这些信息来做基于风险的和尽职调查的决策。我们估计,全球有超过10亿人在Adyen平台上交易。由于该图包含所有交易属性,目前它已拥有超过100亿个节点和300亿条边。

从历史上来看,我们将这些数据存储在Postgres数据库中,这些数据库非常适合处理时间相关的服务,但在处理计算复杂性(例如链接逻辑)和大数据量方面则显得力不从心。为此,我们将系统迁移到了混合型Lambda架构中:一个基于Cassandra的在线处理流程,能够更高效地处理链接,并提供更高层次的复杂度;而离线流程则进行复杂的离线计算,并每小时同步在线数据存储,通过添加新的链接或撤销错误的链接。我们称此系统为CELL(客户事件链接逻辑)。

计算资源和存储容量

在我们这个规模部署AI必然意味着要利用其背后的数据。为此,我们已经投入了相应的基础设施和框架以支持这一流程。以下是Adyen数据平台的一些关键数据(截至2025年1月)。

  • 超过1500个节点
  • 600TB内存(RAM)
  • 60,000个CPU核心
  • 70PB存储
  • 配备NVLink Bridge的Nvidia A100张量核心GPU
  • 每天有超过1000个DAG在平台上运行,有时则是根据需要运行(我们非常依赖Airflow和Spark)。

我们不断投资以实现现代化并确保未来的能力。这意味着我们拥有一套流程、人才和文化,能够自己运行我们的云,并确保它始终可用且永不落伍。

规定、认证和 token 存储库

规模不仅关乎数据量、延迟或运行时间。随着越来越多的客户信任阿迪恩来处理他们的支付和金融服务,我们所承担的责任也越来越多。这要求我们提供的技术解决方案不仅要符合法规,还要满足我们业务扩展的需求。

为此,我们一直在推动PSDx下的强客户认证规定,并探索符合监管要求的边界并推动实施,同时推出有助于商家提高转化率的产品和服务。Uplift通过决策选择最佳认证“渠道”来平衡欺诈、转化率和成本,并且可以在多种可用操作中做出选择,例如豁免、3DS或passkey。

同样,我们也扩大了我们的令牌金库,现在托管了超过20亿个令牌,这些令牌保护高度敏感数据,并符合PCI合规要求。比如,Uplift中的AI可以将数据令牌化、使用令牌,或根据全球优化目标将令牌换成PAN。

AI的有效性取决于它所选择的动作空间。在Uplift中,我们创建了一系列受监管的动作,以便在大规模应用中充分发挥AI的潜力。

第四部分:科学篇
连接式综合决策制定

其中一个最令人困惑的决定是将一系列互不联系的机器学习模型连接到一个共同的目标。Uplift当前版本使用消息传递,这种方法提供了一种简单而高效的方式来建立联系,使模型可以据此调整它们的估计,从而更接近全局最优。

我们尝试了更大的模型和复杂的深度学习模型,这些模型能够结合多个决策,却发现它们通常无法满足在线部署关键流程中的工程要求(比如延迟和正常运行时间)。不过,我们继续探索这一思路,并且在工程技术上不断探索可能的边界,预计在不久的将来,整个流程将迁移到深度学习架构(见下文)。

我们正在这个领域积极地进行研究:我们资助了UVA的AMLAB的一个完整博士职位,以从强化学习的角度来解决这个问题。我们已经在这个领域的社区内分享了一些成果,具体细节可以在这次会议演讲中了解到。

离线策略评估

AB测试在时间和金钱上都很烧钱。如果变体效果不佳,这将花费不少钱,且达到具有统计显著性的流量可能耗时甚久。此外,每年能做的实验数量有限,这可能会使发现胜出变体的时间延长并导致收入损失。此外,这还会带来运营和认知负担,还要牺牲一部分流量来测试假设,这是简单的但必要的步骤。在成熟的产品团队中,AB测试的结果经常不显著,或不够有说服力,从而白白浪费了时间。

为了这个目的,我们对离线测试进行了研究,使我们能够进行离线A/B测试。新变体可以立即进行测试,且高度关联(+80%)于在线测试结果。这使我们每年大约节省了20周的时间,避免了无效的A/B测试,并在六个月内额外增加了9到54百万笔交易。

这项研究已被提交至 RecSys ’25,并在 arXiv 上可以查阅预印版。

反事实假设与因果分析

在我们这个层面上,理解驱动实验结果的原因对我们来说更是一种需求而非兴趣,这将帮助我们发现并避免未来可能出现的系统性问题。这样我们就能在未来避免这些问题。

在同一频道上,一旦我们对一笔交易做出了决定(例如,因怀疑欺诈而阻止它),我们就无法得知如果不采取行动的话结果会如何。从统计学的角度来看,这被称为一种假设的结果,即“反事实”。若想了解整个流量的完整情况,你就需要对流量不采取任何行动,但这又违背了系统的设计目的。

控制组、随机化和探索性流量有助于我们更好地理解实验结果,但研究如因果关系推断这样的学科可以帮助我们了解实验结果背后的原因,并绕过反事实推断(如果需要保留)。

我们还通过资助阿姆斯特丹大学AMLAB的另一个博士职位来投资于该领域的研究,该职位将致力于在我们这种规模的此类数据集上的因果推理研究。博士研究人员的目标是推动研究边界并发表论文,同时他们可以与Adyen的工程团队合作来实施和测试假设,从而推动研究边界。例如,我们正在与生成式AI合作开发一个交易仿真器,该仿真器可以泛化分布情况、反事实和PII(个人可识别信息)信息,并允许我们在使用真实流量拆分进行实验之前,对算法和技术进行评估,从而共同开发和验证假设。

弱监督方法

标签之所以难,有两个原因:数量和质量。鉴于我们的数据量,我们有足够的标签来训练模型,因此我们可以使用诸如下采样之类的平衡技巧,仍然可以得到足够的数据用于模型训练。

然而,由于标签通常滞后、缺失或不完整,我们无法充分利用预测能力。为了解决这个问题,我们一直在研究弱监督方法。弱监督的基本原理是,模型可以从更多的数据(即使这些数据带有噪声)中受益,而不是从少量高质量的数据中受益。更准确地说,对于固定数量的高质量数据,添加噪声数据可能更有帮助。弱监督为“Adyen的数据飞轮”提供了支持,该飞轮结合了提高标签质量和数量的努力以及主动学习(未来的工作,见下文)。在生产环境中应用弱监督,我们已经将召回率提高了+22%,将授权损失减少了-46%,并通过提高欺诈检测效率,实现了+13%的发卡行拒付率增长。

非均匀随机选择的上下文型多臂赌博机

在实时环境中,使用真实流量运行基于RL系统的实验时,会面临这样的两难境地:执行到目前为止可以获得最佳回报的动作(也就是利用现有知识),同时也需要确保这些知识仍然有效,避免盲目依赖过去的真理,即避免盲目执行基于旧知识的操作(也就是探索)。

最简单的技术是被称为epsilon-贪心法,其中将epsilon百分比的随机流量划分用于探索(通常通过从可用动作范围中选择次优动作来实现)。有很多研究方向是关于选择下一个最佳动作,这将使您在保持次优但具有竞争力的基础的同时继续探索。我们一直在进行平台级别的多种技术研究和部署实验,并且发现围绕回归预言机的技术具有重要意义。

这项研究已提交至WWW ’25会议,预印本可在arxiv上查看:[2412.00569] 支付处理中的上下文型强盗:Adyen中的非均匀探索和监督学习策略

深度学习与集成

追求简单和解决问题是我们文化的核心信念,而不是为了解决问题而增加复杂性。因此,诸如提升树之类的经典机器学习算法不仅过去是,现在有时仍然是我们的主要基准。我们已经进行了并且正在进行实验(请参见实验引擎部分),其中部署了复杂的神经网络异构集成模型用于在线支付流程的评分,并不仅达到了与提升模型基准相当的性能,还超过了它们,这些性能改进充分证明了额外的运算负担和复杂性是值得的。

注意:实际上,生成式人工智能(即大语言模型)并不能直接解决问题。不过,我们从像Hyperplane这样的公司获得了灵感,这些公司通过基于Transformer架构构建更大规模的网络,创建了这样的离线模型,从而无需进行明确的特征设计(详见下一点)。

Transformer架构模型

我们正在试验利用无监督预训练和Transformer来更好地利用我们的数据规模,并在建模过程中引入正确的归纳假设。

受最近在语言模型中应用自监督的突破启发,我们将相同的无监督预训练模式应用于支付领域的数据。除了努力利用更多的数据,如弱监督或主动学习,我们还在思考彻底改变监督学习的模式,以释放我们支付数据的全部潜力。通过分析数据自身的结构来推断标签,我们可以实现无人工干预的监督,并释放数据集的最大潜力。

就像句子是由单词组成的序列一样,购物者则是由交易组成的序列——这是 Adyen 的核心数据结构:购物者交易。传统的方法建模时常常忽略这一假设,单独建模序列或者尝试通过诸如某一时刻的购物者聚合等变通方法来建模这一假设。然而,Transformer架构允许我们提供一种替代方法,以利用这些结构的预测能力。

因此,Transformer模型和自我监督使我们能够建立一个基于数十亿交易训练的支付模型基础,使我们能够以前所未有的规模启动任何建模流程。利用下游微调和实体嵌入,我们增强了对购物者的理解,提高了欺诈检测的效率,并开启了诸如合成数据生成等新的研究方向。

可观察性

一旦模型部署并经过实验量化,我们会持续进行诊断以确保性能保持稳定。我们运行经典漂移检测方法(通常在MLOps的范畴下),同时也使用更复杂的算法来检测业务性能的漂移和偏差,例如结合MIST(多重不规则季节性和趋势分解)和DTW(动态时间规整)算法。我们在PyData 2024上详细讲解了这些内容视频链接

公平和易懂

将决策委托给机器本身存在一些挑战,比如确保这些决策不会带有歧视特定群体或被视为不公平的偏见。

为此,我们建立了一个由技术和法律专家组成的内部工作小组,以紧跟法规,包括GDPR和AI法规,并且我们已经进行了程序上的调整,确保Adyen保持其高度道德的文化价值观。所有产品和模型都需要进行评估,检查是否存在偏见,并筛查是否违反相关手册和法规。工作小组批准后,我们通过可观测性工具监控某些敏感特性是否存在过拟合。

所有由AI所做的决策都旨在能够被解释。为此,每次调用都被记录下来,用于解释推理原因的算法会被评分(例如SHAP值)。Adyen Uplift的用户界面为每个交易决策提供解释。

瑞典的未来工作计划

虽然这提供了一个关于构建并部署Adyen Uplift过程中遇到的挑战和学到的经验的概貌,但很明显,我们只是达到了我们目标的一部分。我们还有很长的路要走。

我们在上述领域,以及其它显示出早期积极成果的领域(如代理流、对齐、弱监督与主动学习的飞轮效应和差分隐私保护下的身份表示学习)正在积极进行研究。

在这篇文章中,我们提供了关于Adyen Uplift技术背后的透明、事实性的快照。我们一直在寻找优秀的人才加入我们杰出的团队。如果您对这篇帖子的内容有所共鸣,请查看我们的职业页面了解更多!

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消