Reasoning systems fail when assumptions are hidden. Counterfactual suites force the model to handle alternate facts and edge scenarios.
Create case families that vary constraints, missing evidence, and contradictory signals. Measure not just correctness but explanation quality.
Treat these suites as release blockers. Prompt, model, and retrieval changes should re-run the same suites before promotion.
Discuție
Comentarii de la cititori
Comentariile aprobate apar aici după revizuire, astfel încât notele de implementare rămân utile fără spam.
Nu există încă comentarii aprobate.