| AI models ranked by latest benchmarks

Claude 3.7 Sonnet Thinking

Latest

Anthropic

•

Proprietary

# 85

Released

Feb 24, 2025

# 9

Knowledge Cutoff

Oct 24

# 9

Context Length

200K

Benchmarks

# 108

Code RankedAGI

47.3%

# 128

Agentic RankedAGI

38.8%

# 10

Coding LiveBench 25.5

73.2%

# 14

Code LMArena

1333

# 13

Aider Polyglot

64.9%

# 5

Code LiveBench (old)

71.5%

# 116

Reason RankedAGI

44.9%

# 61

HLE

8.9%

# 53

GPQA Diamond

78.2%

# 13

Reason LiveBench 25.5

76.2%

# 53

Text Arena

1363

# 54

AIME 2025 I & II

49.5%

# 18

AIME 2024

80.0%

# 12

Math LiveBench 25.5

79.0%

# 17

NYT Connections

33.6%

# 15

MMMU

75.0%

# 7

IF LiveBench 25.5

81.3%

# 11

Avg LiveBench 25.5

66.9%

# 3

Avg LiveBench (old)

74.3%

# 2

IF Evaluation

93.2%

# 24

Coding LiveBench 25.4

44.7%

# 2

Data LiveBench

72.8%

# 6

Language LiveBench

61.0%

# 6

Agentic LiveBench 25.5

25.0%

# 120

Math RankedAGI

56.3%

# 118

RAGI RankedAGI

46.6%

# 39

GDPval AA

1054

Pricing

# 39

Input Cost /M

$3

# 46

Output Cost /M

$15

Additional Details

Model ID

claude-3-7-sonnet-20250219

Links

Last Updated

about 2 months ago