建議先定義「高頻問題清單」與「可觀察輸出」(含出處、格式、可追溯性),再以題庫回歸測試驗證;把品質從主觀感受變成可測的驗收標準(以合約與版本為準)。
其他文章
上一篇
(整合與可落地)評估:若未來要擴充新情境(Agent),流程是什麼?
下一篇
(品質與可驗收)評估:如何降低幻覺與錯誤?
相關問題