uiUniverse — Cross-Model Eval Summary

6.5x

Fewer input tokens on average when using AI descriptors instead of raw source code. Consistent across both Claude and Gemini.

+7pp

Average quality improvement with descriptors. The lightweight JSON contract captures the API surface better than hundreds of lines of implementation code.

Models tested. The pattern holds across model providers — descriptors are a model-agnostic improvement to component distribution.

Model Comparison

Model	Raw Score	Descriptor Score	Raw Tokens	Desc Tokens	Token Ratio	Efficiency Gain	Raw TS Valid	Desc TS Valid
Claude Sonnet 4	80%	89%	5742	869	6.6x	7.4x	72%	100%
Gemini 2.5 Flash	72%	77%	5246	823	6.4x	6.8x	56%	72%

Cross-Model Analytics

Quality Score by Model

Token Consumption by Model

Detailed Reports

Individual model reports with full side-by-side code comparisons:

Claude Sonnet 4 Full Report →Gemini 2.5 Flash Full Report →