Amazon Bedrock 增加了强化微调功能，简化了开发人员构建更智能、更准确的 AI 模型的方式

组织在根据特定业务需求适配 AI 模型时，常面临一个棘手的权衡：是满足于表现平平的通用模型，还是应对高级模型定制带来的复杂性与高昂成本。传统方法迫使您在以下两者间做出选择：要么使用性能较差的小模型，要么承担部署大型模型变体和管理复杂基础设施的高昂费用。强化微调是一种先进技术，它利用反馈而非海量标注数据集来训练模型。然而，实施该技术通常需要专业的机器学习知识、复杂的基础设施和大量投入，且无法保证能达到特定使用案例所需的准确度。

今天，我们宣布在 Amazon Bedrock 中推出强化微调功能。这是一项全新的模型定制能力，可创建更智能、更具成本效益的模型。这些模型能够从反馈中学习，并为特定业务需求提供更高质量的输出。强化微调采用反馈驱动的方法，模型根据奖励信号进行迭代改进，其准确率平均比基础模型提升 66%。

Amazon Bedrock 自动执行强化微调工作流，使日常开发人员无需深度机器学习 (ML) 专业知识或大型标签数据集即可使用这种先进的模型定制技术。

增强微调如何工作
强化微调基于强化学习原则构建，旨在解决一个常见挑战：使模型能够持续生成符合业务要求和用户偏好的输出。

传统的微调需要大量标注数据集和昂贵的人工标注，而强化微调则采取了不同的方法。它没有从固定的示例中学习，它并非从固定示例中学习，而是利用奖励函数来评估和判断哪些响应对于特定的业务使用案例有利。这教导模型理解构成高质量响应的要素，而无需海量预先标注的训练数据，使得 Amazon Bedrock 中的高级模型定制更易于使用且更具成本效益。

以下是使用 Amazon Bedrock 强化微调的优势：

易于使用 – Amazon Bedrock 可自动处理大部分复杂性，使构建 AI 应用程序的开发人员更容易进行强化微调。模型可以使用 Amazon Bedrock 中现有的 API 日志进行训练，或通过上传数据集作为训练数据，无需标注数据集或搭建基础设施。
更好的模型性能 – 与基础模型相比，强化微调使模型准确度平均提高 66%，通过训练更小、更快、更有效的模型变体，可以优化价格和性能。这适用于 Amazon Nova 2 Lite 模型，可为特定业务需求提升质量和性价比，并将很快支持更多模型。
安全性 – 在整个定制过程中，数据始终保留在安全的 AWS 环境中，从而降低了安全与合规顾虑。

该能力支持两种互补的方法，为优化模型提供了灵活性：

•基于可验证奖励的强化学习 (RLVR) 使用基于规则的评分器处理代码生成或数学推理等客观任务。
基于 AI 反馈的强化学习 (RLAIF) 则采用基于 AI 的评判模型来处理遵循指令或内容审核等主观任务。

开始在 Amazon Bedrock 中使用强化微调
让我们逐步完成创建强化微调作业的过程。

首先，我访问 Amazon Bedrock 控制台。然后，我导航到定制模型页面。我选择创建，然后选择强化微调作业。

我先输入此定制任务的名称，然后选择基础模型。在发布时，强化微调支持 Amazon Nova 2 Lite，并将很快支持更多模型。

接下来，我需要提供训练数据。我可以直接使用存储的调用日志，无需上传单独的数据集。我还可以上传新的 JSONL 文件，或从 Amazon Simple Storage Service (Amazon S3) 中选择现有的数据集。强化微调会自动验证我的训练数据集，并支持 OpenAI Chat Completions 数据格式。如果我提供 Amazon Bedrock 调用或转换格式的调用日志，Amazon Bedrock 会自动将其转换为 Chat Completions 格式。