以推理分级平衡成本、性能和可靠性

  

 

在AI大规模落地的今天,摆在CTO和CIO面前的核心问题,从“模型有多聪明”变成了“模型有多贵”以及“服务有多稳”。

这常常要求企业在管理AI推理(Inference)资源时,需在三个维度上做权衡:成本(Cost)、延迟/速度(Latency/Speed)和准确性(Accuracy)。而且,当企业的AI应用从内部测试转向面向数百万用户的生产环境时,算力成本的飙升和流量“洪峰”带来的延迟挑战,使得简单的“按需付费”模式不再适用。

亚马逊云科技Amazon Bedrock团队与全球金融科技巨头Intuit的最新实践,揭示了一套成熟的企业级AI推理分级运营方法论——拒绝“一刀切”,实现对AI算力调度的精细化管理。

 

将推理资源分为四个层级

在传统的企业IT架构中,为峰值负载预留资源是通行做法。但是,在昂贵的GPU算力面前,这一习惯极其奢侈。

亚马逊云科技Amazon Bedrock首席产品经理Ankur Desai和亚马逊云科技解决方案架构师Jared Dean提出了一个譬喻:并不是所有乘客都需要私人飞机式奢华,也不是所有行程都必须在明天早上抵达,同样的逻辑也适用于AI请求。

因此,Amazon Bedrock根据业务的紧迫性和价值,将AI推理资源划分为四个层级。

1.私人飞机模式:预留容量(Reserved)。适用于最关键、流量巨大且可预测的业务。由于预先购买了专属的GPU算力,因此,无论外部世界如何拥堵,服务永远畅通无阻,且价格固定。

2.头等舱模式:优先层(Priority)。 对延迟极度敏感、不能容忍排队的高价值交易,宜用此模式。虽然是按需付费,但支付溢价后,请求将被优先处理,且拥有更快的处理速度(更小的批处理大小),确保在流量高峰期也能“插队”通行。

3.超级经济舱模式:标准层(Standard)。 这是大多数企业目前的默认选择。它提供了平衡的性能和成本,虽然在大规模并发下可能会偶遇排队,但对于日常业务来说已经足够。

4.基础经济舱模式:弹性层(Flex)。这是为那些“只要能到目的地,不在乎晚点到”的旅客准备的。对于后台批处理任务,如果企业愿意接受稍微长一点的排队时间,例如几秒甚至几分钟,可换取极大的成本折扣。

这一隐喻背后,是企业AI运营思维的重大转变:从“以模型为中心”转向“以工作负载为中心”。

 

面对数百万级请求,Intuit如何精打细算

Intuit是拥有TurboTax等产品的金融科技巨头。其算力管理可谓精打细算:利用Amazon Bedrock提供的灵活推理选项,支撑数百万级的LLM(大语言模型)请求,并平衡成本与可靠性。

Intuit构建了一个名为“GenOS”的统一操作系统,核心组件是“模型路由器”(Model Router)。这个路由器不仅负责分发请求,更是一个精明的“算力经纪人”。

应对季节性“洪峰”:TurboTax与“私人飞机”。对于税务申报软件TurboTax而言,每年的报税季是绝对的“战场”:流量巨大、可预测性强,且用户容忍度极低。如果服务在报税截止日前夕崩溃或延迟,后果将是灾难性的。因此,Intuit会在该时间段使用预留容量。他们根据历史数据预测P50甚至更高的吞吐量需求,提前锁定算力,不仅保证了100%的可用性和极低的延迟,而且在超高并发下,其单位成本反而优于按需付费。更重要的是,预留模式允许“爆发到按需”(Burst to On-Demand)转换,即当流量超过预留上限时,自动溢出到标准层,确保服务不中断。

应对每日交互高峰:QuickBooks与“头等舱”。与税务软件不同,财务会计软件QuickBooks和Mailchimp的流量呈现出明显的日内波动。用户在工作时间频繁交互,需要即时响应。这种流量不仅具有“尖峰”(Spiky)特征,而且难以精准预测。为这种流量购买全天候的预留容量是不划算的,因为夜间会造成巨大的算力闲置。Intuit的策略是混合使用优先层和标准层。对于关键的用户交互,如实时财务建议,通过支付一定的溢价(通常比标准层高出一定比例),确保这些请求进入优先队列,避免在云端繁忙时被限流,并获得更快的首字生成速度(Time-to-First-Token)。

追求极致性价比:后台任务与“基础经济舱”。Intuit的业务中有大量任务不需要实时反馈。例如,用户上传发票后,并不需要毫秒级的识别结果;生成一份现金流预测月度报表时,用户也可以等待几分钟;工程师对新模型效果做离线评估与批处理,等等。在这些场景中,Intuit大量使用弹性层算力。而Amazon Bedrock的弹性层,通过利用空闲算力,提供约为标准层50%的价格折扣。这一策略虽然可能导致请求处理时间从几秒延长到几分钟,但不会影响用户体验,却以“削峰填谷”极大地降低了总拥有成本(TCO),实现了极致性价比。

 

构建最优“算力投资组合”

AI不再是一个单纯的技术实验,已成为企业运营成本结构中的重要组成部分。在AI规模化落地的下半场,赢家不仅是那些拥有最强模型的企业,更是那些能以最优单位经济效益(Unit Economics)驾驭算力的企业。

在推理请求上,Agentic AI与简单的聊天机器人根本不同。在Agentic工作流中,AI会自主进行多步思考、调用工具、生成草稿并自我修正。这个过程本身就需要一定的时间,中间步骤的毫秒级延迟对最终结果影响甚微。因此,在Agentic AI时代,大量的推理负载将转移到弹性层或“批量处理”(Batch)模式。

人们不会为了寄一封非紧急信件而包下一架飞机。类似地,绝大多数的AI思考过程也不应该在昂贵的实时算力上运行。因此,企业应当重新审视业务流程:有“人”在回路中等待的环节,使用Priority/Standard算力;AI在后台自主完成的环节,用Flex/Batch算力。

对于决策者来说,理解Amazon Bedrock等平台提供的On-Demand(Priority/Standard/Flex)、Reserved和Batch等多种选项,并非为了通过技术认证,而是为了构建一个最优的算力投资组合。而Intuit的经验告诉我们,不会有一种模式通吃所有场景,真正的智慧在于四件事:第一,识别流量特征,区分季节性高峰、每日尖峰和后台任务;第二,定义业务SLA,明确哪些业务必须零延迟,哪些可以妥协;第三,动态路由,构建或利用中间件,根据实时情况在不同成本的推理层级间切换;最后,充分利用技术杠杆,降低边际成本。

216.73.216.114

更多相关评论