Der DAX fällt um zwei Prozent, und um 17:30 Uhr erklärt dir jemand im Anzug genau, warum. Zinssorgen. Schwache China-Daten. Gewinnmitnahmen. Die Erklärung ist flüssig, sie klingt klug, sie passt lückenlos. Wäre der DAX um zwei Prozent gestiegen, hätte derselbe Mensch mit derselben Überzeugung das Gegenteil erklärt — Zinshoffnung, robuste China-Daten, Schnäppchenjäger.
Das ist kein Versehen. Das ist das Geschäftsmodell. Nach dem Ereignis gibt es immer einen Grund. Vorher fast nie.
Die rückblickende Geschichte ist immer schlüssig
Nassim Taleb nennt das den narrativen Fehlschluss: Unser Kopf erträgt keine Zufallsfolge, also legt er rückwirkend eine Ursachenkette darüber. Die Welt wird zur Geschichte, und Geschichten haben Gründe. Das Problem ist nicht, dass die Erklärungen falsch sind — es ist, dass sie unwiderlegbar sind. Sie kosten nichts, weil sie erst entstehen, wenn das Ergebnis schon feststeht.
Eine echte Vorhersage ist teuer. Sie muss sich festlegen, bevor die Daten da sind, und sie kann blamabel scheitern. Eine Erklärung kann das nie. Genau deshalb ist die Welt voll mit dem einen und arm an dem anderen.
Erklären heißt: Ich finde im Nachhinein eine Geschichte, die passt. Vorhersagen heißt: Ich lege mich vorher fest und kann falsch liegen. Nur das Zweite ist überprüfbar — und genau das Zweite vermeiden die meisten.
Der ehrliche Test eines behaupteten Zusammenhangs ist deshalb nie „klingt das plausibel?" und auch nicht „korreliert das in der Vergangenheit?". Er lautet: Hätte es mir an Daten geholfen, die ich noch nicht gesehen hatte?
RÜCKBLICK (in-sample): jeder Punkt bekommt seine Geschichte → „klar, wegen X"
VORHERSAGE (out-of-sample): der nächste, ungesehene Punkt → meistens Münzwurf
Also habe ich aufgehört zu reden und angefangen zu rechnen
Statt mich darüber zu ärgern, habe ich ein kleines Build-in-Public-Projekt gestartet: einen Economic Dependency Atlas. Die Idee: nimm die Zusammenhänge, die alle für selbstverständlich halten — „Gaspreis treibt die Chemieindustrie", „Kupfer läuft der Autoproduktion voraus", „die Zinskurve sagt Rezessionen vorher" — und prüfe sie mit einer einzigen, unbestechlichen Regel.
Die Regel ist die aus dem Test oben. Konkret:
- Den Zeitpunkt, ab dem ein Signal vorlaufen soll, nur aus der Vergangenheit wählen — kein Blick nach vorn.
- Dann out-of-sample vorhersagen: schlägt das Modell mit dem „Frühindikator" eine dumme Baseline („morgen ist ungefähr wie heute") auf Daten, die es beim Lernen nie gesehen hat?
- Das Ergebnis als Konfidenzintervall angeben, nicht als eine schöne Zahl. Punktwerte lügen.
- Und alles, was scheitert, kommt auf einen öffentlichen Hypothesen-Friedhof. Gescheiterte Vorhersagen verschwinden sonst lautlos — das ist die stumme Evidenz, von der Taleb spricht.
Alles auf frei verfügbaren, öffentlichen Monatsdaten (Eurostat, FRED, OECD). Nichts Exotisches.
Das erste Ergebnis war schon entlarvend
Gas → Chemie, der Klassiker. Im Rückblick sieht es großartig aus: Ein gängiger Kausalitätstest (Granger) feuert mit einem p-Wert von 0,002 — das ist die Sorte Zahl, die in einem Paper „bestätigt" bedeutet.
Out-of-sample? Nichts. Der Vorhersagegewinn gegenüber der dummen Baseline liegt bei null, das Konfidenzintervall umschließt sauber die Null. Es half auch nicht vor der Energiekrise 2022 (also kein Krisen-Artefakt), und es half nicht in Euro statt Dollar gerechnet. Der berühmte Zusammenhang ist in-sample signifikant und out-of-sample wertlos. Genau die Lücke zwischen Erklären und Vorhersagen — in einer Zahl.
Dann habe ich es breiter gemacht. Über ein Dutzend Paare, mehrere Spezifikationen, Vorlaufzeiten von einem bis zwölf Monaten. Die Härtefälle:
| Behaupteter Frühindikator | Im Rückblick | Out-of-sample |
|---|---|---|
| Gaspreis → Chemieproduktion | Granger p = 0,002, „signifikant" | kein Mehrwert |
| Kupfer → Autoproduktion | kointegriert (p = 0,003) | kein Mehrwert |
| Geschäftsklima/Aufträge → Produktion | klar korreliert | kein Mehrwert |
| US-Zinskurve → US-Industrieproduktion | das Lehrbuch-Rezessionssignal | kein Mehrwert |
| OECD-Frühindikator → Produktion | eigens gebaut, um vorzulaufen | kein Mehrwert |
Überlebende: null.
Zwei Fälle tun besonders weh. Kupfer und Autoproduktion sind kointegriert — der statistische Heilige Gral, ein gemeinsamer Langfristtrend. Und trotzdem: keinerlei Prognosekraft. Gemeinsam zu trenden heißt nicht, dass einer den anderen führt.
Und der OECD Composite Leading Indicator: ein Index, der von Ökonomen konstruiert wurde, um der Konjunktur vorauszulaufen. Wenn irgendetwas den Test bestehen müsste, dann er. Er besteht ihn nicht — weder einen Monat noch zwölf Monate im Voraus. Wenn nicht einmal das Werkzeug funktioniert, das genau dafür gebaut wurde, dann ist nicht das Werkzeug das Problem, sondern die Erwartung.
Warum fast alles scheitert
Drei nüchterne Gründe, kein Mystizismus:
- Korrelationen sind im Rückblick überall. Wenn du genug Rohstoffe gegen genug Branchen gegen genug Vorlaufzeiten hältst, findest du garantiert schöne Zusammenhänge — rein zufällig. Taleb nennt die Opfer Narren des Zufalls. Der Out-of-sample-Test ist das Gegenmittel, weil der Zufall sich nicht zweimal an dieselbe Stelle setzt.
- Die dumme Baseline ist verdammt gut. „Nächsten Monat ungefähr wie diesen" zu sagen, ist erstaunlich schwer zu schlagen. Der meiste vorhersagbare Teil steckt schon im eigenen Verlauf einer Reihe — nicht in einem externen Treiber.
- Die Welt wechselt das Regime. Ein Zusammenhang, der 2010 hielt, muss 2022 nicht halten. Ein einziges festgenageltes Modell überträgt sich selten.
Und jetzt die Brille gegen mich selbst
Hier wäre der bequeme Schluss: „Alles Quatsch, niemand kann irgendwas vorhersagen." Aber das wäre genau derselbe Fehler in Grün — eine zu selbstsichere Behauptung, nur mit umgekehrtem Vorzeichen.
Also ehrlich: Mein Test hat Grenzen. Über lange Horizonte sind die Stichproben klein, die Konfidenzintervalle entsprechend breit — ich habe schlicht wenig Teststärke. Ich habe linear, paarweise und auf revidierten (nicht echtzeit-vintage) Daten getestet. Ein komplexes, multivariates Modell könnte mehr herausholen.
„Nicht von null zu unterscheiden" ist nicht dasselbe wie „null". Abwesenheit von Beweis ist kein Beweis der Abwesenheit.
Das ist kein Kleingedrucktes, das ist der Kern. Das Ziel ist nicht, vom naiven Glauben („Experten wissen es") zum zynischen Glauben („niemand weiß irgendwas") zu springen. Das Ziel ist Kalibrierung: eine Überzeugung genau so stark halten, wie die Evidenz es trägt — und keinen Tick stärker. Eine Spanne statt eines Punktes. Das gilt für die Vorhersage des Experten genauso wie für meine Widerlegung.
Was du mitnehmen kannst
Du musst dafür keine Zeitreihen rechnen. Es reichen ein paar Fragen, die jede selbstsichere Erklärung sofort auf Normalmaß stutzen:
- „Hätte das vorher funktioniert?" Wäre die Regel auf Daten, die der Erklärende noch nicht kannte, ein Gewinn gewesen — oder ist sie nur eine schöne Geschichte über die Vergangenheit?
- „Wo ist der Friedhof?" Wer dir seine Treffer zeigt, soll auch seine Fehlschläge zeigen. Ohne die Fehlschläge ist die Trefferquote bedeutungslos.
- „Wie breit ist das Intervall?" Eine Vorhersage ohne Spanne ist Marketing. Eine ehrliche kommt mit der Bandbreite, in der sie sich irren kann.
- „Schlägt das überhaupt den Münzwurf?" Erstaunlich oft ist die nüchterne Antwort: nein.
Der teuerste Fehler unter Unsicherheit ist nicht, falsch zu liegen. Es ist, aus einer guten Geschichte eine sichere Wette zu machen.
Ich habe das Üben dieses Denkens in ein kleines Werkzeug gepackt — Against Certainty, einen Feldführer fürs Denken unter Unsicherheit, mit interaktiven Mini-Rechnern statt Theorie. Der Atlas ist im Grunde dessen empirischer Ernstfall: was übrig bleibt, wenn man die Gewissheit der Experten tatsächlich nachrechnet. Bisher: erstaunlich wenig — und das offen ausgewiesen, mitsamt seinen eigenen Grenzen.



