Claude CLI Variance Benchmark Report

2025-12-30 Model: Claude (via claude CLI) 5 runs/question 10 questions

Executive Summary

Metric	Raw Prompts	Structured	Change
Mean Agreement Rate (TARa)	96.0%	98.0%	+2.0 pp
Inconsistency Rate	4.0%	2.0%	-2.0 pp
Mean Variance Reduction	-	-	5.0%

Raw Agreement	Structured Agreement	Improvement
100.0%	100.0%	+0.0 pp

Raw Agreement	Structured Agreement	Improvement
100.0%	100.0%	+0.0 pp

Raw Agreement	Structured Agreement	Improvement
100.0%	100.0%	+0.0 pp

Raw Agreement	Structured Agreement	Improvement
90.0%	90.0%	+0.0 pp

Raw Agreement	Structured Agreement	Improvement
80.0%	100.0%	+20.0 pp

Based on academic literature:

Structured prompting reduced output inconsistency from 4.0% to 2.0%
(a 5.0% reduction in variance).