Coze智能体开发:扣子罗盘Trace自动评测

应用上线后,在上报的大量 Trace 数据中,人工进行查看、筛选、回流将变得繁琐与不现实,扣子罗盘支持用户基于 Trace 数据设置自动化任务,允许在特

应用上线后,在上报的大量 Trace 数据中,人工进行查看、筛选、回流将变得繁琐与不现实,扣子罗盘支持用户基于 Trace 数据设置自动化任务,允许在特定时间范围内,自动采样 Trace 数据,获取输入、输出并进行在线评测,旨在帮助开发者在应用发布到线上后的运维过程中,及时了解应用质量、洞察问题并进行优化,降低人工干预成本。

应用场景

  • 线上质量监控:应用部署上线后,用户在 Trace 模块设定自动化评测规则,扣子罗盘将对应用的真实输出进行评测实验,并在 Trace 列表和详情页展示评测结果。通过自动评测结果,能够发现 AI 应用在面对部分 Query(Input)时,表现(Output)不佳,从而进行线上应用调优。
  • 迭代效果比对:在 AI 应用迭代的过程中,需要常态化了解迭代后的应用版本表现是否更加优异,用户在平台设定自动评测任务后,能够在持续查看该任务下,不同时间周期内、同一评估指标的的评测结果,进而比对迭代效果。
  • 提升数据质量:通过筛选自动评测中的低分 Trace,并回流成评测集(详情,请参考观测数据回流),能够将线上真实数据沉淀为评测基准,不断丰富评测数据库,覆盖更多的场景和边界情况,提升评测的全面性和准确性。

创建自动评测任务

你可以在观测 > Trace 页面或者观测 > 自动化任务页面创建自动评测任务,本文以 Trace 页面为例。

  1. 访问扣子罗盘,并使用扣子账号登录。
  2. 在左侧导航栏顶部,选择一个工作空间。
  3. 在左侧导航栏,选择观测 > Trace,并使用过滤器筛选出 Trace 数据。
  4. 在页面右上角单击创建自动化任务
  5. 填写任务信息采样策略,并单击下一步:规则配置

类别

配置

说明

任务信息

名称

自动评测任务的名称,名称不允许与已有自动化任务名称或实验名称重复。

描述

自动评测任务的描述,你可以备注任务的背景和目的等基本信息。

采样策略

过滤维度

通过过滤器筛选符合要求的 Trace 数据,只有符合要求的 Trace  数据才会被自动评测任务采集,默认筛选 Root Span 和 SDK 方式上报的 Trace 数据。

过滤器中必须指定查看方式数据来源,同时也支持添加 Latency 等其他筛选项。各个筛选项之间为且关系。例如你可以筛选出 Root Span 和 Coze 智能体上报的、Latency 大于 100ms 的 Trace 数据。

  • 自动评测任务的筛选器目前无法根据特定的 Feedback 结果来筛选 Trace 数据。
  • 当数据来源于扣子智能体或扣子应用时,仅允许选择自己作为所有者的智能体和应用。
  • 创建自动化任务后新建的扣子智能体或应用不会自动被系统采集,需要重新创建一个自动化任务才能采集。

时间范围

选择时间范围,只有该时间范围内上报的 Trace 才会被自动评测任务采集。时间区间最长为一年,只能选择当前时间戳之后的时间点,不支持选择过去的时间点。

采样比例

采样的比例,100% 表示全采样,即符合筛选范围的 Trace 数据都会被采样。

采样数据上限

采样数据总条数。自动评测实验会消费资源点,你可以设置上限以避免大量采样导致超支。

默认采样 5000 条数据,支持设置为 1~5000 条。

重复频率

自动评测任务的重复频率。默认不重复,支持设置为天或周的维度重复运行。

如果期望按照时间分布均匀采样,如每周采样特定条数,可以设置按周为单位重复采样,以及每次重复采样的条数上限。

例如,用户期望每周自动评测 200 条线上 Trace 的输入输出,采满 1000 条数据进行系统分析,就可以将采样数据总上限设置为 1000,设定每周重复运行,每次运行采满 200条即中止,等到下一周恢复采集数据,依然是采满 200 条即中止,直到自动评测任务采满 1000 条,任务完成。

  1. 配置评估器。

选择评估器和版本,并配置评估器字段和 Trace 字段的映射关系。支持配置多个评估器。

配置

说明

名称

评估器的名称。

如果没有合适的评估器,可以根据页面提示创建一个新的,可参考管理评估器。

版本

评估器的版本。如果尚未提交版本,可以根据页面提示去提交。

Prompt 详情

展开 Prompt 详情,可查看评估器的 Prompt 是否符合自动评测要求。

字段映射

通过.+字段名的方式下钻提取特定字段内容,例如:

  • 希望回流input.query.content信息,只需要输入input.query.content 即可回流。
  • 除回流Input.name信息外,还希望回流Input里的description信息和Tags里的tokens信息,只需要新增字段映射行,分别输入Input.description和Tags.tokens 即可。

扣子罗盘支持模糊搜索,输入关键词时系统会自动查找相关的字段。当然,你也可以指定一个不在样本 span 中的新字段,但是配置时无法预览 value 值。

配置示例如下:

  1. 在字段映射右上角单击试运行

以最新一条 Trace 数据来试运行评测任务,以便确认任务配置是否正确。页面左侧展示符合筛选条件的 Trace 数据中第 1 条 Trace 数据的 Input、Output、Tags 信息,右侧展示已配置的映射关系以及在预览 Trace 中的具体取值。如果任务配置无误,可以单击试运行,查看该数据的评测结果。

确认测试成功之后,可以单击保存,回到配置页面。

  1. 单击完成

查看评测结果

成功创建自动评测任务之后,可以在观测 > 自动化任务页面查看任务的运行进度等信息。在列表中找到并单击指定任务,即可跳转至任务详情页查看评测结果。

Trace 列表页、详情页、评测任务实验详情页,均会展示评测结果,支持人工校准评测结果。

相关操作

查看任务详情

在左侧导航栏,选择观测 > 自动化任务,即可查看当前工作空间下的所有自动化任务。支持快速通过任务名称、任务状态搜索,支持在过滤器中通过设置规则类型、采样比例、创建人筛选自动评测任务。

在列表中找到并单击指定任务,即可跳转至任务详情页查看详细信息,包括任务的规则、采样比例等基础信息、任务的总览信息、每个实验的运行详情等。

展示项

说明

示例

基础信息

展示规则类型、采样比例、任务描述、创建人、数据时间范围、过滤器配置等自动任务的基础信息。

任务总览

展示自动评测任务中执行的实验可视化总览统计结果。图表形式展示自动评测任务中配置的评估器、对应的不同评测运行结果,可帮助用户查看不同时间周期内,同一指标的变动趋势。

关联实验

实验列表展示实验的运行状态等基础信息,点击详情即可跳转评测实验详情。

在评测实验详情中,支持查看被自动评测任务采集的每条真实输入、输出及评测结果,支持查看 Trace 数据。

  • 点击评估器 Trace,即可查看调用评估器的 Trace。
  • 点击详情,即可查看被自动评测任务采集的 Trace 详情。

实验列表:

实验详情:

编辑任务

创建自动评测任务之后,任务默认为待执行状态,并在设置的开始时间转为运行中状态。

  • 待执行运行中中止状态下,你可以随时修改任务,例如修改任务的描述信息、数据时间范围、采样比例等,但不支持修改筛选器。修改自动评测任务之后,新的配置仅对新数据生效。不同任务状态下,数据时间范围的可编辑内容不同:
    • 任务状态为待执行:开始时间和结束时间均可以编辑。
    • 任务状态为运行中:不支持修改开始时间,只能将结束时间改为当前时间戳之后的时间点。
  • 任务状态为已完成禁用不支持修改包括时间范围内的所有任务配置。

在自动化任务列表中的操作列单击编辑,即可编辑自动评测任务。

修改任务状态

创建自动评测任务后,任务默认为进行中状态,并根据任务配置进行采样和评测。你也可以按需修改任务的状态。

  • 中止或继续任务:在自动化任务列表中的操作列单击中止继续,即可中止或继续任务。中止后,将停止数据采集与任务运行,之前运行完成的任务结果将不再变更。中止期间上报的 Trace 数据,任务恢复后会追加采样并评测。
  • 禁用任务:在操作列中展开折叠菜单,并单击禁用,即可禁用任务。禁用后,任务不可恢复运行,请谨慎操作。

《CDA数据分析师技能树系列图书》系统整合数据分析核心知识,从基础工具(如Python、SQL、Excel、Tableau、SPSS等)到机器学习、深度学习算法,再到行业实战(金融、零售等场景)形成完整体系。书中结合案例讲解数据清洗、建模、可视化等技能,兼顾理论深度与实操性,帮助读者构建系统化知识框架。同时,内容紧跟行业趋势,涵盖大数据分析、商业智能、ChatGPT与DeepSeek等前沿领域,还配套练习与项目实战,助力读者将知识转化为职场竞争力,是数据分析师从入门到进阶的实用参考资料。

发布者:admin,转转请注明出处:http://www.yc00.com/web/1754772666a5200261.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信