应用上线后,在上报的大量 Trace 数据中,人工进行查看、筛选、回流将变得繁琐与不现实,扣子罗盘支持用户基于 Trace 数据设置自动化任务,允许在特定时间范围内,自动采样 Trace 数据,获取输入、输出并进行在线评测,旨在帮助开发者在应用发布到线上后的运维过程中,及时了解应用质量、洞察问题并进行优化,降低人工干预成本。
应用场景
- 线上质量监控:应用部署上线后,用户在 Trace 模块设定自动化评测规则,扣子罗盘将对应用的真实输出进行评测实验,并在 Trace 列表和详情页展示评测结果。通过自动评测结果,能够发现 AI 应用在面对部分 Query(Input)时,表现(Output)不佳,从而进行线上应用调优。
- 迭代效果比对:在 AI 应用迭代的过程中,需要常态化了解迭代后的应用版本表现是否更加优异,用户在平台设定自动评测任务后,能够在持续查看该任务下,不同时间周期内、同一评估指标的的评测结果,进而比对迭代效果。
- 提升数据质量:通过筛选自动评测中的低分 Trace,并回流成评测集(详情,请参考观测数据回流),能够将线上真实数据沉淀为评测基准,不断丰富评测数据库,覆盖更多的场景和边界情况,提升评测的全面性和准确性。
创建自动评测任务
你可以在观测 > Trace 页面或者观测 > 自动化任务页面创建自动评测任务,本文以 Trace 页面为例。
- 访问扣子罗盘,并使用扣子账号登录。
- 在左侧导航栏顶部,选择一个工作空间。
- 在左侧导航栏,选择观测 > Trace,并使用过滤器筛选出 Trace 数据。
- 在页面右上角单击创建自动化任务。
- 填写任务信息和采样策略,并单击下一步:规则配置。
类别 | 配置 | 说明 |
任务信息 | 名称 | 自动评测任务的名称,名称不允许与已有自动化任务名称或实验名称重复。 |
描述 | 自动评测任务的描述,你可以备注任务的背景和目的等基本信息。 | |
采样策略 | 过滤维度 | 通过过滤器筛选符合要求的 Trace 数据,只有符合要求的 Trace 数据才会被自动评测任务采集,默认筛选 Root Span 和 SDK 方式上报的 Trace 数据。 过滤器中必须指定查看方式与数据来源,同时也支持添加 Latency 等其他筛选项。各个筛选项之间为且关系。例如你可以筛选出 Root Span 和 Coze 智能体上报的、Latency 大于 100ms 的 Trace 数据。
|
时间范围 | 选择时间范围,只有该时间范围内上报的 Trace 才会被自动评测任务采集。时间区间最长为一年,只能选择当前时间戳之后的时间点,不支持选择过去的时间点。 | |
采样比例 | 采样的比例,100% 表示全采样,即符合筛选范围的 Trace 数据都会被采样。 | |
采样数据上限 | 采样数据总条数。自动评测实验会消费资源点,你可以设置上限以避免大量采样导致超支。 默认采样 5000 条数据,支持设置为 1~5000 条。 | |
重复频率 | 自动评测任务的重复频率。默认不重复,支持设置为天或周的维度重复运行。 如果期望按照时间分布均匀采样,如每周采样特定条数,可以设置按周为单位重复采样,以及每次重复采样的条数上限。 例如,用户期望每周自动评测 200 条线上 Trace 的输入输出,采满 1000 条数据进行系统分析,就可以将采样数据总上限设置为 1000,设定每周重复运行,每次运行采满 200条即中止,等到下一周恢复采集数据,依然是采满 200 条即中止,直到自动评测任务采满 1000 条,任务完成。 |
- 配置评估器。
选择评估器和版本,并配置评估器字段和 Trace 字段的映射关系。支持配置多个评估器。
配置 | 说明 |
名称 | 评估器的名称。 如果没有合适的评估器,可以根据页面提示创建一个新的,可参考管理评估器。 |
版本 | 评估器的版本。如果尚未提交版本,可以根据页面提示去提交。 |
Prompt 详情 | 展开 Prompt 详情,可查看评估器的 Prompt 是否符合自动评测要求。 |
字段映射 | 通过.+字段名的方式下钻提取特定字段内容,例如:
扣子罗盘支持模糊搜索,输入关键词时系统会自动查找相关的字段。当然,你也可以指定一个不在样本 span 中的新字段,但是配置时无法预览 value 值。 |
配置示例如下:
- 在字段映射右上角单击试运行。
以最新一条 Trace 数据来试运行评测任务,以便确认任务配置是否正确。页面左侧展示符合筛选条件的 Trace 数据中第 1 条 Trace 数据的 Input、Output、Tags 信息,右侧展示已配置的映射关系以及在预览 Trace 中的具体取值。如果任务配置无误,可以单击试运行,查看该数据的评测结果。
确认测试成功之后,可以单击保存,回到配置页面。
- 单击完成。
查看评测结果
成功创建自动评测任务之后,可以在观测 > 自动化任务页面查看任务的运行进度等信息。在列表中找到并单击指定任务,即可跳转至任务详情页查看评测结果。
Trace 列表页、详情页、评测任务实验详情页,均会展示评测结果,支持人工校准评测结果。
相关操作
查看任务详情
在左侧导航栏,选择观测 > 自动化任务,即可查看当前工作空间下的所有自动化任务。支持快速通过任务名称、任务状态搜索,支持在过滤器中通过设置规则类型、采样比例、创建人筛选自动评测任务。
在列表中找到并单击指定任务,即可跳转至任务详情页查看详细信息,包括任务的规则、采样比例等基础信息、任务的总览信息、每个实验的运行详情等。
展示项 | 说明 | 示例 |
基础信息 | 展示规则类型、采样比例、任务描述、创建人、数据时间范围、过滤器配置等自动任务的基础信息。 | |
任务总览 | 展示自动评测任务中执行的实验可视化总览统计结果。图表形式展示自动评测任务中配置的评估器、对应的不同评测运行结果,可帮助用户查看不同时间周期内,同一指标的变动趋势。 | |
关联实验 | 实验列表展示实验的运行状态等基础信息,点击详情即可跳转评测实验详情。 在评测实验详情中,支持查看被自动评测任务采集的每条真实输入、输出及评测结果,支持查看 Trace 数据。
| 实验列表: 实验详情: |
编辑任务
创建自动评测任务之后,任务默认为待执行状态,并在设置的开始时间转为运行中状态。
- 在待执行、运行中或中止状态下,你可以随时修改任务,例如修改任务的描述信息、数据时间范围、采样比例等,但不支持修改筛选器。修改自动评测任务之后,新的配置仅对新数据生效。不同任务状态下,数据时间范围的可编辑内容不同:
- 任务状态为待执行:开始时间和结束时间均可以编辑。
- 任务状态为运行中:不支持修改开始时间,只能将结束时间改为当前时间戳之后的时间点。
- 任务状态为已完成或禁用时,不支持修改包括时间范围内的所有任务配置。
在自动化任务列表中的操作列单击编辑,即可编辑自动评测任务。
修改任务状态
创建自动评测任务后,任务默认为进行中状态,并根据任务配置进行采样和评测。你也可以按需修改任务的状态。
- 中止或继续任务:在自动化任务列表中的操作列单击中止或继续,即可中止或继续任务。中止后,将停止数据采集与任务运行,之前运行完成的任务结果将不再变更。中止期间上报的 Trace 数据,任务恢复后会追加采样并评测。
- 禁用任务:在操作列中展开折叠菜单,并单击禁用,即可禁用任务。禁用后,任务不可恢复运行,请谨慎操作。
《CDA数据分析师技能树系列图书》系统整合数据分析核心知识,从基础工具(如Python、SQL、Excel、Tableau、SPSS等)到机器学习、深度学习算法,再到行业实战(金融、零售等场景)形成完整体系。书中结合案例讲解数据清洗、建模、可视化等技能,兼顾理论深度与实操性,帮助读者构建系统化知识框架。同时,内容紧跟行业趋势,涵盖大数据分析、商业智能、ChatGPT与DeepSeek等前沿领域,还配套练习与项目实战,助力读者将知识转化为职场竞争力,是数据分析师从入门到进阶的实用参考资料。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1754772666a5200261.html
评论列表(0条)