亚马逊AWS官方博客
Category: Generative AI
企业智能体之旅:为什么评估(Evaluation)是一切的起点
当企业把 AI Agent 从“演示惊艳的原型”推向“生产可信赖的系统”时,评估(Evaluation)就成了决定成败的关键一环——它既不同于传统软件的单元测试,也不同于单模型 benchmark。本文基于 Amazon 内部构建数千个生产级 Agent 的实战经验,系统拆解 AWS 的 Agent 评估方法论,并给出一套从原型验证到生产就绪的工程实践路径。
评估企业级智能体:从原型验证到生产就绪
Agent 与传统软件有本质不同——非确定性、Prompt 即源代码、依赖会自己动——因此传统 QA 框架在它身上系统性失效,需要一套新的开发生命周期 ADLC。在那个六环节的飞轮里,“定义‘好’”排在动手构建之前,而 Evaluation 后续工程实践的重要基础:没有它,你不知道自己在哪里,也不知道改了之后有没有变好。上一篇结尾留下了三个问题:Agent Evaluation 究竟要评什么维度?有哪些方法?如何从零构建一套在企业规模下真正可用的评估体系? 本篇就来回答它们。
如何在亚马逊云科技上构建企业级智能体
前面两部分我们讨论了 Agent 的开发生命周期,以及评估为什么是一个全新的问题——它既不同于传统软件的单元测试(输入到输出不再是确定性映射),也不同于大模型 benchmark。本章的主线是六个递进的问题:评估框架长什么样 → 该看哪些指标 → 评估流程怎么跑 → 数据集和人怎么进来 → 怎么把它变成工程纪律 → 有什么工具支撑。
推出 Amazon Bedrock Managed Knowledge Base,助力企业人工智能应用程序更快速、更准确
今日,我们正式推出 Amazon Bedrock Managed Knowledge Base,这套拥有全新功能的产品可让开发人员在数分钟内,依托企业自己的专有数据搭建企业级生成式人工智能应用程序。构建代理式人工智能应用程序的组织需要安全、可靠且最新的企业级数据访问,以交付准确、快速且可信的结果。Managed Knowledge Base 简化构建、管理检索增强生成(RAG)管道的复杂流程,让开发人员可专注业务成果落地,无需投入精力管理基础设施。
通过 AWS Transform 持续现代化(预览版)自动主动减少技术债务
今日,我们正式推出 AWS Transform 持续现代化(预览版),这是 AWS Transform 的全新功能,可大规模、自动化、持续开展技术债务分析和修复工作。AWS Transform 现已助力企业完成数据中心迁出、大型机与 Windows 应用程序现代化改造,同时处理各类标准化软件维护工作:升级 Java 版本、替换已废弃框架、在 AWS Lambda 运行时生命周期结束前完成更新。此次全新体验在此基础上进一步扩展。客户可全面查看数千个存储库的代码库现状、按优先级排序的调查发现,以及用于完成修复的拉取请求。
推出新一代 AWS 韧性监测中心,助力基于生成式人工智能的 SRE 韧性之旅
今天,我们宣布推出下一代 AWS 韧性监测中心,其体验得到了显著扩展,整合了新的应用程序模型、依赖项发现评测、由生成式人工智能驱动的失效模式分析、模块化韧性策略以及组织级报告。
推出新一代 Amazon OpenSearch 无服务器,用于构建您的代理式人工智能应用程序
今天,我们宣布推出新一代 Amazon OpenSearch 无服务器,这是一款完全托管的搜索与向量引擎,专为构建人工智能代理的客户打造。新一代 OpenSearch 无服务器的每秒请求量可从零扩至数千,并在空闲时恢复至零,相较于按峰值容量预置的传统 OpenSearch 服务集群,成本可降低高达 60%。
AWS 每周综述:AWS DevOps 代理和安全代理正式发布、产品生命周期更新等(2026 年 4 月 6 日)
AWS DevOps 代理和安全代理正式发布、产品生命周期更新等
Amazon S3 Vectors 现已正式推出,规模更大,性能更强
今天,我很高兴地宣布,Amazon S3 Vectors 正式推出,其扩展性和生产级性能均显著提升。S3 Vectors 是首个原生支持存储和查询向量数据的云对象存储。与专业的向量数据库解决方案相比,它可以帮助您将存储和查询向量的总成本降低多达 90%。
使用 AWS Lambda 持久函数构建多步骤应用程序和人工智能工作流程
从今天开始,您可以使用 AWS Lambda 持久函数直接在熟悉的 AWS Lambda 体验中构建可靠的多步骤应用程序。持久函数是常规的 Lambda 函数,它们具有您已经熟悉的相同事件处理程序和集成。您可以用自己的首选编程语言编写顺序代码,持久函数会跟踪进度,在失败时自动重试,并在规定的时间点暂停执行长达一年,无需为等待期间的空闲计算付费。






