测试集测出回答为poor后怎么改进？

13316805610 · 2025 年9 月 9 日 09:00

如图，利用测试集测出问题（这些FAQ都是用excel上传的，AI未引用正确），应该如何在后台改进？

3chat_bj · 2025 年9 月 9 日 09:04

“测试集”是用于让业务人员评判agent的表现。至于改进措施，需要具体来看。根据你这个截图，看着像是要在“指导”和“知识库”做优化。对于POOR的原因，是觉得回复不够全面吗？可以把相应的知识库和“指导”配置贴进来，我们来给你一些建议。

13316805610 · 2025 年9 月 9 日 09:10

截图里的内容是使用错误了。比如说，我发的excel约等于是Q1-A1，Q2-A2。

上图的问题就是：我测试Q1的回答，他回答了A2。张冠李戴了…………

还有一个问题是，如下图。我测试Q2的回答，他差不多回答Q2，但是AI自己改写了，但是删去了一些重要内容，没说完整。
想知道这两个问题分别怎么解决？

3Chat_delivery · 2025 年9 月 9 日 09:39

AI回答的其实没问题，从知识库来看，知识库本身重复的比较多，判断下来当问“MBA项目怎么申请”，正常回复申请流程。不会回复介绍MBA的内容

话题		回复	浏览量
测试集情况统计2025.11.3 智能体	0	11	2025 年11 月 3 日
3Chat测试集使用手册-提升对话效果新手指导效果评测 , 测试集	0	164	2025 年8 月 29 日
「AI实践坊第6期」让AI客服更聪明：校准你的智能体表现解决方案 ai实践坊 , 解决方案	0	19	2025 年11 月 6 日
2025.11.11测试集情况智能体	2	4	2025 年11 月 11 日
Use Test Sets to Evaluate 3Chat Agent Before Go-Live Getting started	0	4	2025 年9 月 28 日