在不断发展中的生成式人工智能(Gen AI)领域,评估不同模型在各种场景中的表现对于选择适合组织需求的正确模型至关重要。AWS Bedrock 提供了强大的工具和资源来执行详细且定制化的模型评估,帮助您比较和分析不同模型的性能和响应。本指南提供了这些评估方法的全面概述,为您提供基础知识。
模型评估为何重要模型评估在识别各种模型的优点和缺点方面起着关键作用。通过比较模型,你可以发现特定的知识盲点,并确定模型是否符合组织的风格和具体应用场景需求。这一过程确保所选的基础模型(FM)能与您的数据很好地融合,保持中立,并满足组织的需要,以确保其无偏见并符合组织要求。
模型评估的方式
AWS Bedrock支持三种模式来进行模型评估,具体如下:
- 自动评估:
- 自带工作团队
- AWS管理的工作团队
每种模式提供了不同程度的自定义选项,并且不同程度上需要人为判断。我们来详细看看这些模式。
1. 自动评分.自动评估模式是利用AWS基础设施根据预设或自定义的数据集来评估模型的表现。具体来说,它的运作方式如下:
- 选择一个基础模型:选择要评估的模型,并配置其推理设置,如随机性、多样性、长度和重复性等。
- 选择任务类型:选项包括通用文本生成、文本摘要、问答和文本分类。
- 选择要捕获的指标:指标可以包括毒性、准确性和鲁棒性。
- 毒性:评估产生有害、冒犯或不适当内容的趋势。
- 准确性:评估模型提供事实的能力。
- 鲁棒性:考察模型输出在语义保持不变的细微变化下的影响程度。
- 选择或上传数据集:使用预定义的数据集,例如Gigaword、BoolQ、BOLD、RealToxicityPrompts、TREX和WikiText2,或者上传您自己的数据集。
BOLD(开放生成语言数据集中的偏见) — 用于评测不同领域中的公平性,包括:职业、性别、种族、宗教信仰和政治信仰。
RealToxicityPrompts — 用于评测语言中的毒性
T-Rex — 一个大规模将自然语言与知识库三元组 TREX 对齐的数据集 — 用于生成由关系连接的主语、谓词和宾语,用于NLP
WikiText2 — 一个来自HuggingFace的数据集,包含用于通用文本生成的提示。
AWS Bedrock 评估指标配置界面
- 指定 Amazon S3 结果存储位置: 定义评估结果在 Amazon S3 上的存储位置。
在 AWS Bedrock 的评估结果配置屏幕
- 指定IAM角色: 分配权限,允许Bedrock在指定的S3位置存储结果。
- 推理和评分: Bedrock进行评估,并将评分报告存储在指定的S3位置。
- 查看结果: 从您的S3存储桶中访问和分析结果。
这种模式允许你利用自己的团队来评价模型的回答。流程如下:
- 选择基础模型:可以同时评估最多两个模型。
在AWS Bedrock中用于评估的模型选择器配置。
- 选择任务类型: 包括一个额外的“自定义”选项,以进行个性化的评估。
AWS Bedrock 服务中的配置任务类型设置
- 定义评估指标:根据选定的“任务类型”,你需要指定指标,以便人工团队评估和打分模型的响应。人工与自动模型选项之间的比较显示有更多种类的指标可供选择。每个选定的指标都需要描述以及为人工团队指定的评分方法。选项包括简单的点赞或点踩评分、细分为用于在5点量表上进行细微的评分的李克特量表、顺序排名——用于从1开始的顺序排名,以及用于比较评估不同响应在5点量表上的位置的李克特量表。
AWS Bedrock 的评估配置屏幕
- 指定数据集的位置:指向存储在Amazon S3上的数据集。
- 指定Amazon S3上的结果位置:定义存储评估结果的位置。
- 设置权限(权限设置):为Bedrock和您的团队分配访问S3位置的角色。
- 设置您的工作团队:使用Amazon SageMaker GroundTruth配置您的团队,该工具管理用户访问和任务。
- 提供说明(说明提供):为您的团队提供清晰的说明,指导他们如何评估任务和指标。
- 提交作业:创建并提交评估任务。
- 工作团队完成任务:团队评估提示并将结果提交到S3。
- 查看结果(结果查看):从您的S3存储桶中访问和查看结果。
在这种模式下,AWS 提供一个托管团队来进行评估。具体来说,它是如何运作的:
- 给您的评估取一个有意义的名字,以便追踪任务。
- 安排与 AWS 的咨询,并提供您的联系方式,讨论评估需求。
- 与 AWS 协商,确认任务类型、数据集、指标和存储位置等需求。
AWS确保评估由具备相应领域专业知识的专业人员来进行。
结论部分在 AWS Bedrock 上运行模型评估是一个全面的过程,可帮助您有效理解和比较不同的模型。无论您选择自动评估以采取简单的方式,还是选择人工评估以获得更深入的见解,Bedrock 都提供了所需工具,以确保所选模型符合组织的目标和数据要求。按照以下步骤,您可以深入了解如何进行模型评估,以顺利应用生成式AI技术为目标。
共同学习,写下你的评论
评论加载中...
作者其他优质文章