TCG-Bench Leaderboard

No Contamination, No Saturation

Trading Card Game Bench

Bespoke TCG Designed for LLM Evaluation from the Ground Up

10+ Models Tested

40K+ Games Played

2 Languages

Leaderboard

Rollout 1 Results

Performance against Rollout 1 opponent.
Random baseline: 36.0% win rate
Models tested: 10 English, 1 Arabic

Rank	Model	Win Rate	vs Random	Lang	Games	Avg Time
🥇	Grok-3 Mini X.AI	53.4%	+17.4%	EN	500	2.0s
🥈	Gemini-2.5-Flash:Thinking Google	52.4%	+16.4%	EN	500	2.0s
🥉	Gemini-2.5-Flash Google	46.0%	+10.0%	EN	500	2.0s
#4	Qwen3-32B Alibaba	45.0%	+9.0%	EN	1,000	2.0s
#5	LLaMA-3.3-70B Meta	45.0%	+9.0%	EN	600	2.0s
#6	DeepSeek-R1-Distil-70B DeepSeek	38.3%	+2.3%	EN	600	2.0s
#7	Qwen3-32B Alibaba	34.9%	-1.1%	AR	1,000	2.0s
#8	Qwen3-235B Alibaba	30.2%	-5.8%	EN	500	2.0s
#9	LLaMA-3.2-11B Meta	30.0%	-6.0%	EN	500	2.0s
#10	meta-llama-llama-3.1-8b-instruct Unknown	28.8%	-7.2%	EN	500	2.0s
#11	DeepSeek-R1-Distil-8B DeepSeek	28.2%	-7.8%	EN	500	2.0s

Rank	Model	Win Rate	vs Random	Lang	Games	Avg Time
🥇	Gemini-2.5-Flash Google	36.6%	+8.6%	EN	500	2.0s
🥈	Qwen3-32B Alibaba	32.0%	+4.0%	EN	400	2.0s
🥉	Qwen3-32B Alibaba	32.0%	+4.0%	EN	400	2.0s
#4	LLaMA-3.3-70B Meta	30.4%	+2.4%	EN	500	2.0s
#5	Gemini-2.5-Flash:Thinking Google	29.8%	+1.8%	EN	500	2.0s
#6	DeepSeek-R1-Distil-70B DeepSeek	24.6%	-3.4%	EN	500	2.0s
#7	Qwen3-4B Alibaba	19.2%	-8.8%	EN	400	2.0s
#8	Qwen3-30B Alibaba	19.2%	-8.8%	EN	400	2.0s
#9	Qwen3-30B Alibaba	19.2%	-8.8%	EN	400	2.0s
#10	Grok-3 Mini X.AI	18.2%	-9.8%	EN	500	2.0s
#11	Qwen3-4B Alibaba	15.9%	-12.1%	AR	400	210.1s
#12	Qwen3-235B Alibaba	15.4%	-12.6%	EN	400	2.0s
#13	Qwen3-235B Alibaba	15.4%	-12.6%	EN	400	2.0s
#14	Qwen3-8B Alibaba	14.9%	-13.1%	AR	400	312.4s
#15	LLaMA-3.2-11B Meta	14.4%	-13.6%	EN	500	2.0s

Rank	Model	Win Rate	vs Random	Lang	Games	Avg Time
🥇	Qwen3-32B Alibaba	17.5%	-6.5%	EN	400	2.0s
🥈	Qwen3-32B Alibaba	17.5%	-6.5%	EN	400	2.0s
🥉	Gemini-2.5-Flash Google	17.2%	-6.8%	EN	500	2.0s
#4	LLaMA-3.3-70B Meta	16.4%	-7.6%	EN	500	2.0s
#5	Qwen3-30B Alibaba	12.5%	-11.5%	EN	400	2.0s
#6	Qwen3-30B Alibaba	12.5%	-11.5%	EN	400	2.0s
#7	DeepSeek-R1-Distil-70B DeepSeek	12.4%	-11.6%	EN	500	2.0s
#8	Qwen3-32B Alibaba	11.2%	-12.8%	AR	400	12.5s
#9	Qwen3-235B Alibaba	11.1%	-12.9%	EN	400	2.0s
#10	Qwen3-235B Alibaba	11.1%	-12.9%	EN	400	2.0s
#11	Gemini-2.5-Flash:Thinking Google	11.0%	-13.0%	EN	500	2.0s
#12	Grok-3 Mini X.AI	10.2%	-13.8%	EN	500	2.0s
#13	Qwen3-4B Alibaba	10.0%	-14.0%	EN	400	2.0s
#14	LLaMA-3.2-11B Meta	9.6%	-14.4%	EN	500	2.0s
#15	Qwen3-4B Alibaba	9.5%	-14.5%	AR	400	17.7s
#16	Qwen3-30B Alibaba	9.2%	-14.8%	AR	400	5.8s
#17	Qwen3-8B Alibaba	8.8%	-15.2%	EN	400	2.0s
#18	Qwen3-8B Alibaba	8.8%	-15.2%	AR	400	95.7s
#19	Qwen3-235B Alibaba	6.5%	-17.5%	AR	400	91.2s

Rank	Model	Win Rate	vs Random	Lang	Games	Avg Time
🥇	Qwen3-8B Alibaba	17.2%	-0.8%	EN	400	2.0s
🥈	Gemini-2.5-Flash Google	15.0%	-3.0%	EN	500	2.0s
🥉	Qwen3-32B Alibaba	13.2%	-4.7%	EN	400	2.0s
#4	Qwen3-32B Alibaba	13.2%	-4.7%	EN	400	2.0s
#5	Qwen3-30B Alibaba	7.8%	-10.2%	EN	400	2.0s
#6	Qwen3-30B Alibaba	7.8%	-10.2%	EN	400	2.0s
#7	Qwen3-235B Alibaba	6.9%	-11.1%	EN	400	2.0s
#8	Qwen3-235B Alibaba	6.9%	-11.1%	EN	400	2.0s
#9	Qwen3-8B Alibaba	5.8%	-12.2%	AR	400	92.4s

Submit Your Results

Contribute your model's performance to our benchmark

ℹ️ Fill in the form below and submit via email.

About TCG-Bench

TCG-Bench is a contamination-proof benchmark designed to evaluate large language models in strategic decision-making tasks. By using a custom-designed trading card game that doesn't exist in training data, we ensure truly unbiased evaluation.

Our benchmark tests models across multiple difficulty levels and languages, providing insights into strategic reasoning capabilities beyond traditional benchmarks.

🎯

Contamination-Proof

Custom game ensures no prior exposure

🌍

Multilingual

Supports English and Arabic evaluation

📊

Scalable Difficulty

Multiple opponent strengths for comprehensive testing

TCG-BENCH