在 Amazon SageMaker 上利用人类和 AI 反馈提升 LLM 性能 机器学习博客
在 Amazon SageMaker 上利用人类和 AI 反馈提升 LLM 性能 机器学习博客
2026-01-27 13:29:59

提升大型语言模型性能:结合人类与 AI 反馈的解决方案

关键要点

在本篇文章中,我们将探讨如何通过结合人类和 AI 反馈来提升大型语言模型的性能。通过在 Amazon SageMaker 平台上进行的项目,我们展示了如何从用户反馈中提取数据,通过强化学习RLHF优化模型,并最终改善问答机器人的响应质量。

亚马逊 EU 设计与施工DampC团队负责设计与建造亚马逊仓库。该团队需要处理大量文件并找到正确的信息,以确保仓库设计符合高标准。在上一篇文章《利用生成式 AI 改善亚马逊 EU 设计与施工》,我们介绍了一个使用增强检索生成RAG流程的问答机器人解决方案,以便亚马逊 DampC 团队从大量无序文件中有效提取准确信息,及时为其施工项目提供高质量的服务。亚马逊 DampC 团队将该解决方案实施于一项试点项目中,并收集了用户反馈。

在本文中,我们分享了如何分析反馈数据,识别 RAG 提供的准确性和幻觉的局限性,并通过人类评估分数训练模型。为增加训练样本以提升学习效果,我们还使用了另一种大型语言模型生成反馈分数。这一方法解决了 RAG 的局限性,并进一步改善了机器人响应质量。我们将展示强化学习过程和基准结果,以证实大型语言模型的性能改善。该解决方案使用 Amazon SageMaker JumpStart 作为模型部署、微调和强化学习的核心服务。

从亚马逊工程师收集反馈

在开发出前述生成式 AI 解决方案后,亚马逊 DampC 团队将其部署并与亚马逊工程师进行了试点项目。工程师们通过与 RAG 流程连接的 Web 应用访问试点系统。我们在流程中使用了 Amazon OpenSearch 服务作为向量数据库,并在 Amazon SageMaker 上部署了微调后的 Mistral7BInstruct 模型。

试点项目的其中一个关键目标是收集来自亚马逊工程师的反馈,并利用这些反馈进一步减少大型语言模型的幻觉。为此,我们在用户界面中开发了一个反馈收集模块,用户可以在其中选择五个满意度等级:非常不同意、不同意、中立、同意和非常同意,对应于反馈分数的15。用户还可以提供更好的答案或评论,说明为什么大型语言模型的响应不令人满意。

在试点期间,用户提供了118条反馈。以下图表显示了从负面到正面的分布。我们注意到,在总反馈中被负面反馈不同意和非常不同意标记的错误答案占45118条中的53条。其中一些错误约10的负面反馈和75的总体响应可以通过用户教育和提示工程解决。此外,我们可以通过微调大型语言模型和强化学习的方法解决这个问题。

用户反馈示例

问题我们有多少个停车位?机器人回答根据给定的上下文,我们没有足够的信息来确定停车位的数量。上下文讨论了停车位的最小尺寸和外部照明水平的要求,但没有提供具体的停车位数量。可参考以下资源的进一步解释: ARS GEN 100/050102 设计标准及附录/性能包 AR 可排序设计标准 v2011pdf 第10页 ARS GEN 100/050102 设计标准及附录/性能包 AR 可排序设计标准 v2011pdf 第79页用户评分非常不同意用户备注这是在设计标准第01 13 10节第21页中指定的。

通过监督微调和强化学习改善机器人响应

该解决方案由三步微调组成:

使用标记数据进行监督微调。收集用户反馈以标记问答对,以进一步微调大型语言模型。当训练数据准备好后,使用人类反馈的强化学习进一步微调模型。

人类反馈强化学习RLHF在生成式人工智能和大型语言模型应用中广泛使用。它将人类反馈纳入奖励函数,并用强化学习算法训练模型,以最大化奖励,使模型的任务执行与人类目标更一致。

我们使用 Amazon DampC 文档和 Mistral7B 模型在 SageMaker JumpStart 上测试了该方法论。

监督微调

在之前的文章中,我们展示了微调后的 Falcon7B 模型如何超越 RAG 流程,提高问答机器人响应的质量和准确性。在本文中,我们针对 Mistral7B 模型执行了监督微调。该微调使用 PEFT/LoRA 技术LoRAr = 512,LoRAalpha = 1024在436207616个参数共7677964288个参数的568上进行。训练在 p38x 节点上进行,使用了由大型语言模型合成生成、并经人类验证的137个样本;在20个周期后,过程成功收敛。

在 Amazon SageMaker 上利用人类和 AI 反馈提升 LLM 性能 机器学习博客

经过微调的模型以274个样本进行了验证,推理结果与参考答案通过语义相似度评分进行比较。评分为08100,高于传统 RAG 的06419。

收集人类和 AI 反馈用于强化学习

对于 RLHF,足够的高质量训练样本由主题专家SME标记至关重要。然而,低质量的人类标签可能导致经过 RLHF 训练后的模型性能低于原始模型。SME 的时间是任何组织中都很稀缺的资源;审查数百或数千个大型语言模型响应并提供反馈需要 SME 大量的时间投入。

为了应对这一挑战,我们采用了 AI 反馈强化学习RLAIF方法。RLAIF 使用 AI 助手另一种大型语言模型提供评估分数,而不是来自人类的评分。这种混合学习方法允许学习代理多方参与不仅根据与人类的互动,还根据另一个 AI 模型提供的反馈来优化自己的行为。这种方法在为强化学习提供足够训练数据方面更加可扩展,也降低了主观性,因为训练不依赖于少数 SME 的特定偏好。SME 仍可以参与监督过程和检查 AI 反馈质量,从而显著减少 SME 的工作负担,因为 AI 生成的评分和标签更易于分析、筛选和分类。

在本案例中,我们向 Anthropic Claude 2 模型提供了以下提示,以生成训练样本的评价分数:

plaintext人类:我要给你提供一个问题、一个参考答案和一个机器生成的答案。问题:{问题}参考答案:{参考答案}机器答案:{机器答案}请分析问题、参考答案和机器生成的答案,以确定机器生成的答案与参考答案是否在语义上匹配。首先在 ltthinkinggt 标签内深入思考你的答案,然后根据机器答案与参考答案的匹配程度分配一个00到50的分数。分数50表示完全匹配,分数00表示完全不匹配。将评分放在 ltscoringgt 标签内。同时在 ltreasongt 标签内提供给出该分数的理由。助手:ltthinkinggt

Claude 2 模型生成了评价分数以及相关评分理由。

加速器下载永久免费版

在274个验证问题中,监督微调后的模型生成了159个响应,其 AI 评分大于4。我们观察到60个回答的评分低于3,表明总体响应质量仍有提升的空间。

亚马逊工程师 SME 验证了这段 AI 反馈,并认可使用 AI 评分的好处。没有 AI 反馈,SME 将需要时间审查和分析每个大型语言模型的响应,以识别不合格的答案和幻觉,并判断大型语言模型是否返回了正确的内容和关键概念。AI 反馈自动提供 AI 评分,使 SME 能够利用筛选、排序和分组来验证分数并识别响应趋势,从而将平均审查时间减少了80。

基于人类与 AI 反馈的强化学习

当训练样本准备就绪后,我们使用接近最优策略优化PPO算法进行强化学习。PPO 使用策略梯度方法,在学习过程中逐步更新策略,使学习代理能够可靠地到达最优策略网络。这使得训练过程更加稳定,减少了发散的可能性。

在训练期间,我们首先使用人类和 AI 标注的数据构建一个奖励模型,以指导学习过程中的权重更新。对于这个用例,我们选择 distilrobertabase 作为奖励模型,并通过以下格式的样本来训练它:

[Instruction Chosenresponse Rejectedresponse]

以下是一个训练记录示例:

指令根据语境,对于包容性和可及性设计有什么规定?选定响应BREEAM 信用 HEA06 包容性和可及性设计 该建筑是为所有潜在用户设计的,合适且可及。根据 BREEAM 检查清单 A3 制定访问策略。被拒绝的响应上下文说明

奖励模型使用学习率1e5进行训练。如下图所示,训练在10个周期后顺利收敛。

接下来,奖励模型用于强化学习。对于本用例,我们使用 PEFT/LoRA 加速学习,LoRAr 为32,LoRAalpha 为64。基于 PPO 的学习速率为141e5,持续三轮。强化训练对标签数据和反馈数据高度敏感,我们借助奖励均值指标来观察学习进程,即特意监测奖励模型获得的平均奖励。

经过 RLAIF 后,我们看到带有正分数大于3的机器人响应数量从781增加到855,负分数低于3的数量从219减少到145。总体而言,平均 AI 反馈分数提高了8,从39提升到42。

我们可以在以下示例中看到这种改进。

问题针对铺设地面的区域,需要什么样的砂浆?参考答案混凝土砂浆仅适用于铺设地面的区域。请参阅图纸系列 A32,以查看地面砖铺设的适用区域。强化学习前机器人回答混凝土砂浆仅适用于强化学习前 AI 评分3强化学习后机器人回答混凝土砂浆仅适用于铺设地面的区域。请参阅图纸系列 A32,以查看砖铺设的适用区域。强化学习后 AI 评分45

结论

本文延续了我们与亚马逊 EU 设计与施工团队的工作,探讨了如何生成人类和 AI 反馈数据以微调 Mistral7B 模型,并通过强化学习提升模型性能。经过 RLAIF 的模型在亚马逊工程的问答机器人中表现更佳,并将 AI 反馈分数提高了8。在亚马逊 DampC 团队的试点项目中,使用 RLAIF 使 SME 的验证工作量减少了约80。接下来的步骤,我们将通过与亚马逊工程的数据基础设施对接,设计一个框架以自动化持续学习过程,确保人机协作。我们还将通过调整提示模板进一步提高 AI 反馈质量。

通过这一过程,我们认识到通过人类反馈和 AI 反馈不仅能显著提高问答任务的质量和性能。

人类验证与增强至关重要:能够提供准确且负责任的输出,借助 RLHF,进一步提升模型输出。RLAIF 自动化评估与学习周期:AI 生成的反馈因不依赖于少数 SME 的特定偏好而更少主观性。RLAIF 更多可扩展性:在最小化 SME 努力的同时,推进持续强化学习来提升机器人质量,尤其适用于大型组织的领域特定生成 AI 解决方案开发。定期执行此过程:尤其在新领域数据可用于解决方案中时。

在本案例中,我们使用了 SageMaker JumpStart 测试多种大型语言模型并尝试了多种训练方法。它显著加快了 AI 反馈和学习周期,提高了效率和质量。对您的项目而言,您可以引入人机协作的方法以收集用户反馈,或使用另一种大型语言模型生成 AI 反馈。然后可以遵循本文中定义的三步过程,通过 RLHF 和 RLAIF 微调您的模型。推荐使用 SageMaker JumpStart 进行这些方法的实验,以加快过程进展。

作者介绍

Yunfei Bai 是 AWS 的高级解决方案架构师。凭借在人工智能/机器学习、数据科学和分析方面的背景,Yunfei 帮助客户采用 AWS 服务以实现商业成果。他设计 AI/ML 和数据分析解决方案,以克服复杂技术挑战,推动战略目标。Yunfei 拥有电子与电气工程的博士学位。工作之外,他喜欢阅读和听音乐。

Elad Dwek 是亚马逊的建筑技术经理。凭借在建筑和项目管理方面的背景,Elad 帮助团队采用新技术和基于数据的流程以推进建设项目。他识别需求和解决方案,并促进定制属性的开发。Elad 拥有 MBA 和结构工程学士学位。工作之外,Elad 喜欢瑜伽、木工和与家人旅行。

Luca Cerabone 是亚马逊的商业智能工程师。凭借在数据科学和分析方面的背景,Luca 制作量身定制的技术解决方案,以满足客户的独特需求,推动他们实现更可持续和可扩展的流程。拥有数据科学硕士学位的 Luca 在业余时间喜欢进行 DIY 项目、园艺和烹饪实验。

加载评论