Claude Opus 4.7: Anthropic hebt die Messlatte und verschiebt die Preiseinheit

💡

Heute, am 16. April 2026, hat Anthropic Claude Opus 4.7 veröffentlicht.

Nach einem Leak von The Information am 14. April und einer Woche voller Spekulationen auf Reddit, Polymarket und in den üblichen AI-Newslettern ist das Modell jetzt live: auf der Claude-Plattform, über die API und bei allen drei großen Cloud-Anbietern — Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry. Model-ID für Entwickler: claude-opus-4-7.

Zwei Dinge machen diesen Release interessanter als einen weiteren Punkt-Sieben-Iterations-Update.

Opus 4.7 ist laut VentureBeat das derzeit leistungsstärkste allgemein verfügbare LLM — knapp vor GPT-5.4 und Gemini 3.1 Pro. Auf den Benchmarks, die für professionelle Nutzer zählen (Coding, Vision, Finance), führt es ziemlich klar.
und das ist die ehrlichere Geschichte — räumt Anthropic in der Release-Kommunikation selbst ein, dass Opus 4.7 nicht das stärkste Modell im Haus ist. Dieser Platz gehört weiter einem System namens Mythos Preview, das nur etwa vierzig ausgewählte Unternehmen über das Programm Project Glasswing nutzen dürfen. Ein Frontier-Lab, das öffentlich sagt „unser bestes Modell bekommt ihr nicht". Das ist in dieser Branche 2026 selten geworden.

Und dann ist da noch die Tokenizer-Sache. Dazu später mehr.

Die Chronologie: Von Opus 4 zum nicht veröffentlichten Mythos

Zum Einordnen: Opus 4.6 kam im Februar 2026. Davor Opus 4.5, 4.1, 4 — Anthropic hat seit Januar 2026 etwa alle zwei Wochen etwas Größeres released, oft in Form kleinerer Iterationen auf derselben Modellarchitektur. Die Nummerierungslogik ist nicht mehr besonders aussagekräftig. Entscheidend ist: 4.6 galt in den letzten Wochen vor dem neuen Release als nicht mehr ganz zuverlässig. Reddit und GitHub sind voll mit Klagen über Regressions. Ein AMD-Senior-Director schrieb in einem viel geteilten Post: „Claude has regressed to the point it cannot be trusted to perform complex engineering." Die Spekulation: Anthropic habe 4.6 heimlich gedrosselt, um Rechenkapazität für Mythos freizuschaufeln.

Anthropic hat das ausdrücklich bestritten. Trotzdem ist der Eindruck, dass Modelle nach dem Release „schlechter werden", in der Community so fest verankert, dass er fast schon ein eigenes Ritual hat.

Über Opus 4.7 steht jetzt Mythos. Über Mythos steht — nichts Öffentliches. Das ist neu.

Die fünf echten Upgrades — mit Zahlen

1. Coding, endlich wieder ernsthaft besser

Die Software-Engineering-Zahlen sind der Hauptgrund, warum dieses Release mehr ist als kosmetisch.

SWE-bench Verified: 87,6% (Opus 4.6: 80,8%)
SWE-bench Pro — der schwerere, realistischere Benchmark: 64,3% (4.6: 53,4%). Das sind rund 20% relativer Zuwachs auf der Ebene, die tatsächlich wehtut.
CursorBench: 70% (4.6: 58%)
Terminal-Bench 2.0: 69,4% (4.6: 65,4%)
Rakuten Real-World SWE-Bench: dreimal so viele Produktionsaufgaben gelöst wie 4.6

Laut Anthropics eigenem Blogpost löst Opus 4.7 vier Tasks, die weder 4.6 noch Sonnet 4.6 schafften. Hex berichtet in der offiziellen Partner-Kommunikation: „low-effort Opus 4.7 is roughly equivalent to medium-effort Opus 4.6." Auf einem 93-Task-Coding-Benchmark hebt 4.7 die Resolution-Rate um 13 Prozentpunkte gegenüber 4.6.

Dazu kommt ein architektonisches Detail, das unter dem Marketing-Begriff Self-Verification läuft: Das Modell prüft seine eigenen Outputs vor der Antwort. Hex formuliert es so, dass 4.7 „korrekt meldet, wenn Daten fehlen, statt plausibel-falsche Fallbacks zu liefern" — ein Verhalten, bei dem 4.6 noch regelmäßig gestolpert ist.

2. Vision: Drei Megapixel mehr Realität

Bisherige Claude-Modelle akzeptierten Bilder bis 1.568 Pixel auf der Längsseite (ca. 1,15 MP). Opus 4.7 verarbeitet jetzt 2.576 Pixel — rund 3,75 Megapixel, also mehr als dreimal so viel Detail.

Die praktische Auswirkung ist dramatischer, als die Zahl suggeriert:

Visual Acuity (Computer Use): 98,5% (4.6: 54,5%)
Visual Navigation ohne Tools (bei voller Auflösung): 79,5% (4.6: 57,7%)
OfficeQA Pro (Document Reasoning): 21% weniger Fehler

Wer Claude für Computer Use einsetzt — UI-Inspektion, Screenshot-Parsing, Dashboard-Analyse — hat bis jetzt mit einem Modell gearbeitet, das die halbe Zeit blind war. Das ist vorbei. Screenshots, Diagramme, chemische Strukturen, UI-Mockups kommen in echter Auflösung durch, Koordinaten-Mapping ist jetzt 1:1 zu tatsächlichen Pixeln.

3. Knowledge Work: Finance & Legal

Auf dem GDPval-AA Elo (ökonomisch wertvolle Wissensarbeit, Schwerpunkt Finance und Legal) erreicht Opus 4.7 einen neuen Spitzenwert von 1753. Zum Vergleich: GPT-5.4 liegt bei 1674, Gemini 3.1 Pro bei 1314. Finance-Agent-Score: 0,715 gesamt, 0,813 für General Finance.

Das ist der Benchmark, der für Enterprise-Käufer zählt — Banken, Kanzleien, Versicherer — und genau die Kundensegmente, aus denen Anthropics Umsatzwachstum kommt.

4. Neue Developer-Features

xhigh — ein neues Reasoning-Level zwischen „high" und „max". In Claude Code ist es jetzt Default. Empfehlung von Anthropic: für Coding und agentische Workflows mit high oder xhigh starten.
Task Budgets (Public Beta): Entwickler können einem kompletten Agentic-Loop ein Token-Budget zuweisen, statt pro Turn zu limitieren. Wer je einen Runaway-Agent im Produktionsbetrieb hatte, weiß, warum das wichtig ist.
/ultrareview in Claude Code: dedizierte Multi-Agent-Review-Session für Bugs und Designprobleme.
Auto Mode für Max-Nutzer: Claude entscheidet bei Agentic-Tasks selbst über Permissions.

5. Safety: Der Cyber-Filter

Opus 4.7 ist das erste Claude-Modell mit automatischer Blockade hochriskanter Cybersecurity-Anfragen. Das kommt direkt aus dem Mythos-Programm, wo Anthropic mit Partnern wie AWS, Apple, Microsoft, Google und Cisco Schutzmechanismen entwickelt hat. Legitime Security-Professionals können sich über ein formales Cyber Verification Program qualifizieren. Halluzinationen und Prompt-Injection-Resistenz sind laut Anthropic-Safety-Card verbessert, wenn auch nicht auf Mythos-Niveau.

Das Rennen: Opus 4.7 gegen GPT-5.4 und Gemini 3.1 Pro

Benchmark	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Pro	64,3%	53,4%	57,7%	54,2%
SWE-bench Verified	87,6%	80,8%	n/a	80,6%
Terminal-Bench 2.0	69,4%	65,4%	75,1%*	68,5%
GDPval-AA Elo	1753	—	1674	1314
Visual Acuity	98,5%	54,5%	—	—
Agentic Search	79,3%	—	89,3%	—

*OpenAI nutzt eigenen Harness, nicht direkt vergleichbar.

Ehrliche Einordnung: Opus 4.7 gewinnt bei Coding und Knowledge Work. GPT-5.4 bleibt vorn bei Agentic Search und dem Terminal-Bench (unter eigener Messmethode). Gemini dominiert weiter bei Multilingual. VentureBeats Fazit: „narrowly retaking the lead for most powerful generally available model." Das narrowly ist nicht Bescheidenheit, das ist präzise.

Die Tokenizer-Kontroverse: Der stille Preisanstieg

Hier wird es interessant. Und unbequem.

Die offizielle Kommunikation: „Pricing bleibt unverändert bei 5 $ pro Million Input-Token und 25 $ pro Million Output-Token." Keine Erhöhung, also alles gut?

Nicht ganz. Anthropic selbst schreibt in der offiziellen Pricing-Dokumentation:

„Opus 4.7 uses a new tokenizer compared to previous models, contributing to its improved performance on a wide range of tasks. This new tokenizer may use up to 35% more tokens for the same fixed text."

Das ist keine Verschwörungstheorie eines Reddit-Users. Das steht bei Anthropic. Der neue Tokenizer erzeugt für denselben Input bis zu 35% mehr Tokens. Typische Praxis-Werte: ~1,25x für englischen Fließtext, ~1,35x für Code und JSON — also genau dort, wo die meisten zahlenden Entwickler ihre Tokens verbrennen.

Kombiniert mit der zweiten Änderung — xhigh als neuem Default in Claude Code, das wesentlich mehr Reasoning-Tokens frisst als high — liegt die effektive Kostensteigerung für typische Coding-Workloads bei geschätzt 35 bis 50 Prozent. Bei nominaler Preisstabilität.

Das Formulierungs-Muster ist fein. Apidog bringt es auf den Punkt: „Die Per-Token-Preise sind identisch, aber die effektiven Kosten pro Request können steigen." Anthropic empfiehlt, mit dem /v1/messages/count_tokens-Endpoint konkret nachzumessen. Das ist technisch korrekt und kommunikativ sauber — und es ändert nichts daran, dass die Einheit, in der man zahlt, sich unter der Hand verschoben hat.

Wer das kritisch sieht, liegt nicht falsch. Wer es für unvermeidlich hält (ein neuer Tokenizer ist Teil der Verbesserungen), auch nicht. Was nicht geht, ist so zu tun, als sei der Preis wirklich gleich geblieben.

Stimmen aus dem Netz

Positiv, aus der Praxis:

Cursor, Rakuten und CodeRabbit melden echte Produktionsgewinne; Cursor gibt zeitweise 50% Rabatt auf Opus-4.7-Adoption
Reddit r/ClaudeAI: „Coding improvements are real and measurable, especially for complex multi-step tasks"
GitHub Changelog: „delivers stronger multi-step task performance"
Claude-Max-Entwickler: sofortiger Wechsel empfohlen, „medium-effort 4.6 = low-effort 4.7" sei die Realität

Skeptisch bis frustriert:

Die „they-nerfed-4.6-on-purpose"-These ist auf Reddit nicht tot zu kriegen — Anthropic hat sie offiziell dementiert, das Misstrauen bleibt
Frustration über Usage-Limits, die Modell-Upgrades für viele Pro-Nutzer de facto unzugänglich machen
Vor dem Release, über 4.6: „Opus is at a new level of dumb today — dangerously so" (r/Anthropic)
„Probably just Opus 4.6 renamed" — widerlegt durch Benchmarks, aber die Tatsache, dass die Community so etwas überhaupt annimmt, ist das eigentliche Signal

Axios fasst das Klima gut zusammen: Anthropic veröffentlicht mitten in einer Vertrauenskrise über angeblich gedrosselte 4.6-Performance. Der Release hat eine Doppel-Funktion — Produkt-Upgrade und Gegenerzählung.

Der Schatten: Was Mythos kann, und warum das die eigentliche Geschichte ist

Mythos Preview ist seit Anfang April bekannt — ursprünglich durch einen ziemlich peinlichen Leak, bei dem Draft-Materialien in einem öffentlich zugänglichen Datenspeicher auf Anthropics Website lagen. Die Beschreibung intern: „by far the most powerful AI model we've ever developed."

Die Zahlen, die Anthropic jetzt öffentlich macht:

SWE-bench Verified: 93,9% (Opus 4.7: 87,6%)
Findet Zero-Day-Vulnerabilities autonom
Laut offizieller Alignment-Bewertung das am besten ausgerichtete Modell, das Anthropic je trainiert hat

Die New York Times sprach am 7. April von „a cybersecurity reckoning" — Anthropic habe intern Regierungsbeamte gewarnt. Project Glasswing ist das Sicherheitsprüfungs-Programm, in dem Mythos von etwa vierzig Industriepartnern getestet wird: AWS, Apple, Microsoft, Google, Cisco — inklusive direkter Rivalen. Wired schrieb darüber: „Anthropic Teams Up With Its Rivals to Keep AI From [causing harm]." NBC: „Why Anthropic won't release its new Mythos AI model to the public." CNN: „Anthropic's next model could be a 'watershed moment' for cybersecurity."

Was Opus 4.7 in diesem Kontext ist: ein Sicherheits-Test-Vehikel. Anthropic sagt das fast wörtlich — man wolle die Cyber-Schutzmechanismen „an weniger leistungsfähigen Modellen testen, um auf eine eventuelle breite Mythos-Freigabe hinzuarbeiten." Wer dieses Framing ernst nimmt, versteht den heutigen Release anders: Opus 4.7 ist das kommerzielle Flaggschiff, aber strategisch ist es der Testreifen.

Die eigentliche Geschichte ist nicht, was Anthropic heute released hat. Sie ist, was sie absichtlich zurückhalten.

Business: Anthropic hat OpenAI überholt

Am 7. April 2026 — keine zehn Tage vor dem heutigen Release — hat Anthropic bekanntgegeben, dass die annualisierte Umsatzrate (ARR) 30 Milliarden Dollar überschritten hat. OpenAI liegt nach eigenen Angaben bei etwa 25 Milliarden (2 Mrd. pro Monat).

Erstmals seit ChatGPT existiert, liegt ein Rivale bei der Umsatzrate vorn.

Metrik	Wert
ARR Anthropic (April 2026)	~$30 Mrd.
ARR OpenAI (April 2026)	~$25 Mrd.
Bewertung Series G (Feb 2026)	$380 Mrd.
Enterprise-Kunden mit >$1M Spend	1.000+ (doppelt so viele wie im Feb)
Claude Code ARR	>$2,5 Mrd.
Enterprise-Anteil am Umsatz	~80%
Projektion Training-Kosten 2030	Anthropic ~$30 Mrd. / OpenAI ~$125 Mrd.

Methodisches Kleingedrucktes: Anthropic rechnet Brutto (inkl. Cloud-Credit-Arrangements), OpenAI Netto. Unter identischer Methode wäre die Rangfolge offen. Trotzdem: die Richtung der Umkehr ist nicht umstritten, und Ramp-Daten zeigen, dass bei Neukäufen von AI-Services im März 2026 65% Anthropic wählten, nur 32% OpenAI. Anthropics Enterprise-Marktanteil stieg in einem einzigen Monat von 24,4% auf 30,6%, OpenAI fiel von ~46% auf 35,2%.

Opus 4.7 ist in diesem Kontext nicht nur ein Modell-Update. Es ist ein Produkt, das die IPO-Story tragen muss, die für Oktober 2026 erwartet wird. Das erklärt auch die breite Verfügbarkeit — Opus 4.7 ist das einzige Frontier-Modell gleichzeitig auf AWS, Google Cloud und Azure. Anthropic verkauft nicht mehr ein Modell, Anthropic verkauft Infrastrukturneutralität an Enterprise-CFOs.

Fazit & Ausblick: Was jetzt zu tun ist

Was Opus 4.7 wirklich ist: ein solides, in wichtigen Bereichen führendes Modell-Upgrade mit einem stillen Preisanstieg, den man kennen muss, und einem größeren Bruder im Schatten, den man nicht kaufen kann.

Für wen ein Wechsel sinnvoll ist:

Coding-intensive Workloads: klar ja. Die Produktionszahlen rechnen sich trotz Tokenizer-Effekt.
Computer-Use- und Vision-Anwendungen: zwingend. Der Sprung von 54,5% auf 98,5% Visual Acuity ist keine Iteration, das ist eine andere Kategorie.
Knowledge-Work in Finance, Legal, Consulting: der GDPval-Vorsprung ist real.
Reine Textgenerierung in großem Volumen: vorher mit count_tokens messen. Wer bisher mit Opus 4.6 auf dem Limit kalkuliert hat, kann unangenehm überrascht werden.

Was kommt als Nächstes:

Project Glasswing wird für Mai 2026 in San Francisco eine öffentliche Veranstaltung haben — dort ist zu erwarten, dass Anthropic mehr zu Mythos zeigt.
Das AI-Design-Tool, das The Information geleakt hatte, ist heute nicht mitgereleast worden — Figma, Adobe und die Web-Builder-Konkurrenz haben noch ein paar Wochen Ruhe.
Die Anthropic-IPO im Oktober 2026 wird bepreist auf Basis der Traktion, die Opus 4.7 jetzt liefern muss.

Der nüchterne Satz zum Schluss: In der Woche, in der Anthropic OpenAI beim Umsatz überholt und das IPO-Fenster öffnet, veröffentlichen sie ein Modell, das knapp führt, ehrlich über seine Grenzen spricht und die eigentliche Waffe zurückhält. Das ist disziplinierter als das, was wir aus San Francisco sonst gewohnt sind. Ob es so diszipliniert bleibt, wenn der Druck steigt — das ist die Frage für die nächsten zwölf Monate.

Benchmark-Zahlen aus Anthropics offizieller Dokumentation, Vergleichswerte aus VentureBeat, Axios und The AI Corner. Tokenizer-Hinweis direkt aus der Anthropic-Pricing-Doku.