Coze智能体开发：扣子罗盘Trace自动评测

admin•2025-09-17 03:24:19•网站建设•阅读13

应用上线后，在上报的大量 Trace 数据中，人工进行查看、筛选、回流将变得繁琐与不现实，扣子罗盘支持用户基于 Trace 数据设置自动化任务，允许在特

应用上线后，在上报的大量 Trace 数据中，人工进行查看、筛选、回流将变得繁琐与不现实，扣子罗盘支持用户基于 Trace 数据设置自动化任务，允许在特定时间范围内，自动采样 Trace 数据，获取输入、输出并进行在线评测，旨在帮助开发者在应用发布到线上后的运维过程中，及时了解应用质量、洞察问题并进行优化，降低人工干预成本。

应用场景

线上质量监控：应用部署上线后，用户在 Trace 模块设定自动化评测规则，扣子罗盘将对应用的真实输出进行评测实验，并在 Trace 列表和详情页展示评测结果。通过自动评测结果，能够发现 AI 应用在面对部分 Query（Input）时，表现（Output）不佳，从而进行线上应用调优。
迭代效果比对：在 AI 应用迭代的过程中，需要常态化了解迭代后的应用版本表现是否更加优异，用户在平台设定自动评测任务后，能够在持续查看该任务下，不同时间周期内、同一评估指标的的评测结果，进而比对迭代效果。
提升数据质量：通过筛选自动评测中的低分 Trace，并回流成评测集（详情，请参考观测数据回流），能够将线上真实数据沉淀为评测基准，不断丰富评测数据库，覆盖更多的场景和边界情况，提升评测的全面性和准确性。

创建自动评测任务

你可以在观测 > Trace 页面或者观测 > 自动化任务页面创建自动评测任务，本文以 Trace 页面为例。

访问扣子罗盘，并使用扣子账号登录。
在左侧导航栏顶部，选择一个工作空间。
在左侧导航栏，选择观测 > Trace，并使用过滤器筛选出 Trace 数据。
在页面右上角单击创建自动化任务。
填写任务信息和采样策略，并单击下一步：规则配置。

类别	配置	说明
任务信息	名称	自动评测任务的名称，名称不允许与已有自动化任务名称或实验名称重复。
任务信息	描述	自动评测任务的描述，你可以备注任务的背景和目的等基本信息。
采样策略	过滤维度	通过过滤器筛选符合要求的 Trace 数据，只有符合要求的 Trace 数据才会被自动评测任务采集，默认筛选 Root Span 和 SDK 方式上报的 Trace 数据。过滤器中必须指定查看方式与数据来源，同时也支持添加 Latency 等其他筛选项。各个筛选项之间为且关系。例如你可以筛选出 Root Span 和 Coze 智能体上报的、Latency 大于 100ms 的 Trace 数据。自动评测任务的筛选器目前无法根据特定的 Feedback 结果来筛选 Trace 数据。当数据来源于扣子智能体或扣子应用时，仅允许选择自己作为所有者的智能体和应用。创建自动化任务后新建的扣子智能体或应用不会自动被系统采集，需要重新创建一个自动化任务才能采集。
	时间范围	选择时间范围，只有该时间范围内上报的 Trace 才会被自动评测任务采集。时间区间最长为一年，只能选择当前时间戳之后的时间点，不支持选择过去的时间点。
	采样比例	采样的比例，100% 表示全采样，即符合筛选范围的 Trace 数据都会被采样。
	采样数据上限	采样数据总条数。自动评测实验会消费资源点，你可以设置上限以避免大量采样导致超支。默认采样 5000 条数据，支持设置为 1~5000 条。
	重复频率	自动评测任务的重复频率。默认不重复，支持设置为天或周的维度重复运行。如果期望按照时间分布均匀采样，如每周采样特定条数，可以设置按周为单位重复采样，以及每次重复采样的条数上限。例如，用户期望每周自动评测 200 条线上 Trace 的输入输出，采满 1000 条数据进行系统分析，就可以将采样数据总上限设置为 1000，设定每周重复运行，每次运行采满 200条即中止，等到下一周恢复采集数据，依然是采满 200 条即中止，直到自动评测任务采满 1000 条，任务完成。

配置评估器。

选择评估器和版本，并配置评估器字段和 Trace 字段的映射关系。支持配置多个评估器。

配置	说明
名称	评估器的名称。如果没有合适的评估器，可以根据页面提示创建一个新的，可参考管理评估器。
版本	评估器的版本。如果尚未提交版本，可以根据页面提示去提交。
Prompt 详情	展开 Prompt 详情，可查看评估器的 Prompt 是否符合自动评测要求。
字段映射	通过.+字段名的方式下钻提取特定字段内容，例如：希望回流input.query.content信息，只需要输入input.query.content 即可回流。除回流Input.name信息外，还希望回流Input里的description信息和Tags里的tokens信息，只需要新增字段映射行，分别输入Input.description和Tags.tokens 即可。扣子罗盘支持模糊搜索，输入关键词时系统会自动查找相关的字段。当然，你也可以指定一个不在样本 span 中的新字段，但是配置时无法预览 value 值。

配置示例如下：

在字段映射右上角单击试运行。

以最新一条 Trace 数据来试运行评测任务，以便确认任务配置是否正确。页面左侧展示符合筛选条件的 Trace 数据中第 1 条 Trace 数据的 Input、Output、Tags 信息，右侧展示已配置的映射关系以及在预览 Trace 中的具体取值。如果任务配置无误，可以单击试运行，查看该数据的评测结果。

确认测试成功之后，可以单击保存，回到配置页面。

单击完成。

查看评测结果

成功创建自动评测任务之后，可以在观测 > 自动化任务页面查看任务的运行进度等信息。在列表中找到并单击指定任务，即可跳转至任务详情页查看评测结果。

Trace 列表页、详情页、评测任务实验详情页，均会展示评测结果，支持人工校准评测结果。

相关操作

查看任务详情

在左侧导航栏，选择观测 > 自动化任务，即可查看当前工作空间下的所有自动化任务。支持快速通过任务名称、任务状态搜索，支持在过滤器中通过设置规则类型、采样比例、创建人筛选自动评测任务。

在列表中找到并单击指定任务，即可跳转至任务详情页查看详细信息，包括任务的规则、采样比例等基础信息、任务的总览信息、每个实验的运行详情等。

展示项	说明	示例
基础信息	展示规则类型、采样比例、任务描述、创建人、数据时间范围、过滤器配置等自动任务的基础信息。
任务总览	展示自动评测任务中执行的实验可视化总览统计结果。图表形式展示自动评测任务中配置的评估器、对应的不同评测运行结果，可帮助用户查看不同时间周期内，同一指标的变动趋势。
关联实验	实验列表展示实验的运行状态等基础信息，点击详情即可跳转评测实验详情。在评测实验详情中，支持查看被自动评测任务采集的每条真实输入、输出及评测结果，支持查看 Trace 数据。点击评估器 Trace，即可查看调用评估器的 Trace。点击详情，即可查看被自动评测任务采集的 Trace 详情。	实验列表：实验详情：

编辑任务

创建自动评测任务之后，任务默认为待执行状态，并在设置的开始时间转为运行中状态。

在待执行、运行中或中止状态下，你可以随时修改任务，例如修改任务的描述信息、数据时间范围、采样比例等，但不支持修改筛选器。修改自动评测任务之后，新的配置仅对新数据生效。不同任务状态下，数据时间范围的可编辑内容不同：
- 任务状态为待执行：开始时间和结束时间均可以编辑。
- 任务状态为运行中：不支持修改开始时间，只能将结束时间改为当前时间戳之后的时间点。
任务状态为已完成或禁用时，不支持修改包括时间范围内的所有任务配置。

在自动化任务列表中的操作列单击编辑，即可编辑自动评测任务。

修改任务状态

创建自动评测任务后，任务默认为进行中状态，并根据任务配置进行采样和评测。你也可以按需修改任务的状态。

中止或继续任务：在自动化任务列表中的操作列单击中止或继续，即可中止或继续任务。中止后，将停止数据采集与任务运行，之前运行完成的任务结果将不再变更。中止期间上报的 Trace 数据，任务恢复后会追加采样并评测。
禁用任务：在操作列中展开折叠菜单，并单击禁用，即可禁用任务。禁用后，任务不可恢复运行，请谨慎操作。

《CDA数据分析师技能树系列图书》系统整合数据分析核心知识，从基础工具（如Python、SQL、Excel、Tableau、SPSS等）到机器学习、深度学习算法，再到行业实战（金融、零售等场景）形成完整体系。书中结合案例讲解数据清洗、建模、可视化等技能，兼顾理论深度与实操性，帮助读者构建系统化知识框架。同时，内容紧跟行业趋势，涵盖大数据分析、商业智能、ChatGPT与DeepSeek等前沿领域，还配套练习与项目实战，助力读者将知识转化为职场竞争力，是数据分析师从入门到进阶的实用参考资料。

发布者：admin，转转请注明出处：http://www.yc00.com/web/1754772666a5200261.html

扣子智能 coze trace

admin

网站建设
PS智能插件ImageCreator！免费无限制，真的卷疯了！
宝子们，下午好啊~今天给大家分享的是ImageCreator 一款为 Adobe Photoshop 设计的 AI 插件，具有 TXT2IMG、IMG2IMG、Fill 和 ControlNet
admin
1月前
240
网站建设
批量智能对像图层排列克隆复制PS插件_安装说明
首先我们需要下载“一键快速批量复制排列图层PS扩展面板|My Clone 2.0”，支持Win与Mac系统，支持CC2015以上版本软件，主要功能用于复制排列图层&#
admin
1月前
220
网站建设
智能abc是什么输入法：win10可用的智能abc输入法免费下载
智能abc是什么输入法：智能abc输入法是由中国北京大学的朱守涛先生开发的一款国产中文汉字输入法，它简单易学快速又灵活，深受广大Windows用户的喜爱，是当时Windows XP系统内置的标配中文输入法，当年可是风靡
admin
1月前
190
网站建设
推荐开源项目：Douban Conversation Corpus - 为构建智能聊天机器人提供关键资源
推荐开源项目：Douban Conversation Corpus - 为构建智能聊天机器人提供关键资源项目介绍Douban Conversation Corpus 是一个精心构建的开源数据集&#xff0c
admin
1月前
120
网站建设
[提升你的聊天机器人开发：使用Coze API的实用指南]
# 提升你的聊天机器人开发：使用Coze API的实用指南## 引言在数字化不断发展的今天，聊天机器人已成为企业和开发者不可或缺的工具。Coze平台通过其强大的API提供了一个方便快捷的途径，让你能轻松构建自己的聊天机器人。本篇文章将带你
admin
1月前
160
网站建设
实现Python接入coze平台api小函数
1. 代码展示不占用大家的时间，所以先把代码附上了，接下来我会简单讲解下，复制完代码后需要进行怎样的修改。 import requestsimport json# 调
admin
1月前
130
网站建设
百度智能云千帆AppBuilder代码示例
示例代码中心：服务与支持百度智能云千帆AppBuilder左侧密钥管理：百度智能云千帆AppBuilder 百度智能云千帆AppBuilder个人中心创建应用 1. 先在示例代码中心点新建
admin
1月前
250
网站建设
企业如何抓住“AI+出海”新机遇？2024光亚展现场，全屋智能出海AI营销第一课行业大咖齐聚点拨
2024年6月9日至12日，第29届广州国际照明展览会（光亚展）于在中国进出口商品交易会展馆举办。连同同期举行的第21届广州国际建筑电气技术展览会（GE
admin
1月前
180
网站建设
【花雕学编程】ESP32 ChatGPT之智能日程管理
Arduino是一个开放源码的电子原型平台，它可以让你用简单的硬件和软件来创建各种互动的项目。Arduino的核心是一个微控制器板，它可以通过一系列的引脚来连接各种传感器、执行器、显示器等外部设备
admin
1月前
180
网站建设
【花雕学编程】ESP32 ChatGPT之智能灯光控制
Arduino是一个开放源码的电子原型平台，它可以让你用简单的硬件和软件来创建各种互动的项目。Arduino的核心是一个微控制器板，它可以通过一系列的引脚来连接各种传感器、执行器、显示器等外部设备
admin
1月前
180
网站建设
什么是智能体agent？
文章目录什么是智能体agent？最基本的核心思想我们是如何走到今天以及为什么是现在如何从思维上剖析“一个智能体系统”痛苦的教训结论什么是智能体agent？ 原文链接：h
admin
1月前
190
网站建设
面向智能体的上下文工程：策略、实现与 LangGraph 实践
文章大纲简介上下文工程是什么？ What is Context Engineering? 四大策略 Four Core Patterns 1. Write Context – 写出去 1.1 Scratchpad – 草稿本 1.2 M
admin
1月前
210
网站建设
LangGraph + MCP + Ollama 实战教程：打造强大的多智能体聊天机器人
最近，模型上下文协议 (Model Context Protocol, MCP) 在 AI 开发圈引起了不小的关注。这个由 Anthropic 推出的开放标准，被一些开发者称为"专为 A
admin
1月前
240
网站建设
Transformer作者：指令型智能体的构建之法
来源 | The Robot Brains Podcast OneFlow编译翻译｜徐佳渝、贾川、杨婷 2017年，Google发布的《Attention Is All You Need》论文提
admin
1月前
180
网站建设
手把手教你！扣子（Coze）开源免费私有化部署，小白也能秒变AI智能体玩家！
刚刷到这个消息的时候，我整个人都震惊了😱 这可是字节跳动旗下的AI平台扣子啊！直接把两大核心业务全部开源了：GitHub地址: https:git
admin
1月前
170
网站建设
01 Agent智能体核心与实践
本文主要讲述了AI agent开发的基础知识，包括其定义、机会、基本构成和常见类型，以及agent常用的几种模版。同时，还介绍了agent开发的最佳实践和安全提示&#
admin
1月前
190
网站建设
【MetaGPT系列】【MetaGPT完全实践宝典——多智能体实践（辩论赛）构建】
目录前言一、智能体1-1、Agent概述1-2、Agent与ChatGPT的区别二、多智能体框架MetaGPT（特朗普与拜登的二人辩论）2-1、安装&配置2-2、使用已有的Agent&
admin
1月前
210
网站建设
Linux服务解析-含智能监控运维平台
1、CLIENT TASK 作为DNS服务器域名解析测试的客户端，安装nslookup、dig命令行工具；作为网站访问测试的客户端，安装firefox浏览器，curl命令行测试工具；作为SSH远程登录测试客户端，安装ssh命令行测试工具
admin
1月前
160
网站建设
AI应用架构师必看：智能风险评估平台的数据治理痛点与解决方案（附脱敏实战）
AI应用架构师必看：智能风险评估平台的数据治理痛点与解决方案（附脱敏实战）关键词：智能风险评估、数据治理、数据脱敏、AI架构、数据质量、隐私合规、实战案
admin
1月前
210
网站建设
浏览器里的AI工作台：用Page Assist零代码打造私有化智能助手
往期文章基于 Cherry StudioOllamaDeepSeek 构建私有知识库小白也能看懂的DeepSeek-R1本地部署指南摘要 Page Assist 是一款专为开发者设计的开源浏览器扩展，赋能
admin
1月前
160

发表回复

评论列表（0条）

暂无评论

Coze智能体开发：扣子罗盘Trace自动评测

应用场景

创建自动评测任务

查看评测结果

相关操作

查看任务详情

编辑任务

修改任务状态

发表回复

评论列表（0条）

联系我们

400-800-8888

Coze智能体开发：扣子罗盘Trace自动评测

应用场景

创建自动评测任务

查看评测结果

相关操作

查看任务详情

编辑任务

修改任务状态

相关推荐

发表回复

评论列表（0条）

联系我们

400-800-8888