WisdomTree Prime® - Tokenized RWAs designed for Yield, Transparency, & Programmability. Sponsored Friend & Sponsor Learn more

Home, Read, Analysis

Die fehlende Ebene in KI-gestützten Prognosemärkten

KI-Richter könnten Prognosemärkte regulieren, aber nur, wenn ihre Entscheidungen reproduzierbar sind.

David Christopher
Jan 30, 2026 • 6 min read

Listen

Open in ChatGPT Open in Claude View as Markdown

0:00 0:00

Subscribe to Bankless or sign in

Letzte Woche veröffentlichte a16z einen Vorschlag für den Einsatz von LLMs als Richter auf Prognosemärkten.

Der Vorschlag sieht vor, ein bestimmtes Modell und eine bestimmte Eingabe bei der Erstellung eines Marktvertrags in der Blockchain zu speichern, den Händlern vor dem Wetten die Möglichkeit zu geben, die Nuancen der Lösung zu prüfen, und diese dann bei der Lösung auszuführen. Das Ziel dabei ist es, menschliche Voreingenommenheit und Probleme zu beseitigen, die bei der tokenbasierten Streitbeilegung auftreten können.

Es gibt nur ein Problem, das der Vorschlag übersieht: LLMs sind nicht dafür ausgelegt, zweimal dieselbe Antwort zu geben.

Der Engpass bei der Lösung

Die Lösung ist zum Engpass für Prognosemärkte in großem Maßstab geworden.

In ihrem Artikel nennt a16z mehrere Märkte, auf denen die Lösung zu einem Skandal führte:

Der Wahlmarkt in Venezuela, der ein Volumen von über 6 Millionen Dollar verzeichnete, bevor er in Vorwürfe einer voreingenommenen Lösung mündete, als Beobachter Betrug behaupteten und die Regierung das gegenteilige Ergebnis verkündete.
Der Zelensky-Anzug-Markt, auf dem 200 Millionen Dollar darauf gewettet wurden, ob der ukrainische Präsident bei einem NATO-Gipfel einen Anzug tragen würde. Während der Auflösung des Marktes änderten die UMA-Token-Inhaber die Auflösung von „Ja” zu „Nein”, obwohl in den Nachrichten berichtet wurde, dass er einen Anzug tragen würde, was zu Protesten der Händler und hitzigen Diskussionen darüber führte, was als „Anzug” gilt.
Ein Vertrag über die territoriale Kontrolle der Ukraine sah eine Entscheidung auf der Grundlage einer bestimmten Online-Karte vor; angeblich hat jemand die Karte bearbeitet, um das Ergebnis zu beeinflussen.

Menschliche Komitees haben Interessenkonflikte. Token-basierte Abstimmungssysteme wie UMA haben Probleme mit „Walen” und Glaubwürdigkeitsprobleme, wenn große Inhaber über Verträge abstimmen, auf die sie gewettet haben – selbst wenn sie fair abstimmen, untergräbt die Optik das Vertrauen.

Daher schlägt a16z, wie es jeder gute VC tun würde, den Einsatz von KI vor. Wie bereits erwähnt, besteht ihre Idee darin, dass bei der Vertragserstellung ein bestimmtes LLM und ein bestimmter Prompt in der Blockchain festgeschrieben werden. Händler könnten vor dem Wetten den gesamten Lösungsmechanismus überprüfen – das Modell, den Prompt, die Informationsquellen. Wenn ihnen die Konfiguration nicht gefällt, handeln sie nicht. Bei der Lösung wird das festgelegte Modell mit dem festgelegten Prompt ausgeführt und liefert ein Urteil. Keine Regeländerungen während des Handels, keine Ermessensentscheidungen.

Die Vorteile sind real. LLMs widerstehen Manipulationen besser als menschliche Gremien – man kann ein Modell nicht einfach bestechen oder seine Gewichte nach der Festlegung ändern. Sie sind in einer Weise transparent, die Governance nicht erreichen kann. Und sie haben kein finanzielles Interesse an den Ergebnissen, wodurch das Problem der Interessenkonflikte, das die Token-Abstimmung plagt, beseitigt wird. Um es klar zu sagen: a16z schlägt nicht vor, Menschen vollständig zu entfernen – sie erkennen die Notwendigkeit einer kontinuierlichen Governance an, bei der es darum geht, welchen Modellen man vertrauen kann, wie man mit offensichtlichen Fehlern umgeht und wann man Standardeinstellungen aktualisieren sollte.

Aber genau hier stößt der Vorschlag auf Probleme.

Die Reproduzierbarkeitslücke

Wenn Sie denselben Befehl mit identischen Einstellungen in einem beliebigen gängigen Modell ausführen, erhalten Sie unterschiedliche Ergebnisse. So funktioniert moderne Inferenz.

Warum? Das hängt damit zusammen, wie GPUs Informationen verarbeiten. Wenn Sie ein Modell ausführen, finden Tausende von Berechnungen gleichzeitig statt. Die Reihenfolge, in der diese Berechnungen abgeschlossen werden, kann jedes Mal leicht variieren, und diese winzigen Abweichungen führen zu unterschiedlichen Endergebnissen. Wir alle haben dies schon erlebt, und für Chatbots ist es irrelevant. Es spielt keine Rolle, wenn Ihre Artikelzusammenfassung jedes Mal etwas anders ausfällt. Wenn überhaupt, sorgt dies für mehr Vielfalt. Aber wenn es darum geht, zu bestimmen, wer in einem 200-Millionen-Dollar-Markt bezahlt wird, ist das natürlich eine andere Geschichte. Theoretisch könnte die unterlegene Partei genau dieselbe Eingabe erneut ausführen und die gegenteilige Antwort erhalten.

Was nun?

Der Vorschlag von a16z geht davon aus, dass die Festlegung eines Modells und einer Eingabe eine überprüfbare, auditierbare Lösung hervorbringt. Wenn jedoch jemand das Ergebnis anzweifelt und dasselbe Modell mit denselben Eingaben erneut ausführt, erhält er möglicherweise ein anderes Ergebnis. Und wenn uns die oben genannten Märkte etwas lehren, dann ist es, dass kleine Nuancen erhebliche Auswirkungen haben können.

Infolgedessen schwindet der Vorteil der „Transparenz” durch den Einsatz von KI, da es keine kanonische Antwort gibt, anhand derer eine Prüfung erfolgen könnte.

Deterministische Inferenz von EigenAI

Diese Woche veröffentlichte EigenAI ein Whitepaper veröffentlicht, in dem eine bitgenaue Reproduzierbarkeit auf Produktions-GPUs behauptet wird: 100 % Übereinstimmungsrate bei 10.000 Testläufen, mit minimaler Verlangsamung der Inferenzgeschwindigkeit.

Enjoying this article?

Subscribe to Bankless or sign in

Um dies zu erreichen, muss jede Ebene des Stacks kontrolliert werden – alle Stellen, an denen Variabilität auftreten kann, müssen gesperrt werden.

Auf der Hardware-Ebene muss jeder, der Inferenz ausführt oder überprüft, identische GPU-Modelle verwenden. Da unterschiedliche Chip-Architekturen selbst bei Ausführung desselben Codes zu unterschiedlichen Ergebnissen für dieselben Berechnungen führen, ist die Standardisierung der Hardware die erste Voraussetzung.

Auf der Softwareebene ersetzt Eigen die Standard-Mathematikbibliotheken, die GPUs für Berechnungen verwenden, durch benutzerdefinierte Versionen, die eine strenge Reihenfolge erzwingen. Die Standardbibliotheken priorisieren Geschwindigkeit gegenüber Konsistenz; die Versionen von EigenAI opfern einen kleinen Teil der Leistung, um jedes Mal identische Ergebnisse zu garantieren.

Das Ergebnis: Bei identischen Eingaben ist die Ausgabe eine reine Funktion. Wenn man sie tausend Mal ausführt, erhält man identische Ergebnisse.

Um dies für Prognosemärkte oder umstrittene KI-Ausgaben nutzbar zu machen, kombiniert EigenAI deterministische Inferenz mit einem Verifizierungssystem. Ihr Modell lehnt sich an Blockchain-Rollups an. Die Partei, die die Inferenz durchführt, veröffentlicht verschlüsselte Ergebnisse. Die Ergebnisse werden standardmäßig akzeptiert, können aber während eines Streitfensters angefochten werden. Im Falle einer Anfechtung führen unabhängige Prüfer die Ausführung innerhalb sicherer Hardware-Enklaven erneut durch. Da die Ausführung deterministisch ist, wird die Verifizierung einfach: Stimmen die Ergebnisse überein?

Ist dies nicht der Fall, löst die Nichtübereinstimmung eine Kürzung aus – wirtschaftliche Strafen, die aus dem gebundenen Einsatz gezogen werden. Die ursprüngliche Partei verliert Geld, der Anfechter und die Prüfer werden bezahlt. Die Privatsphäre bleibt dabei vollständig gewahrt: Die Eingabeaufforderungen bleiben verschlüsselt, die Entschlüsselung erfolgt nur in verifizierten, sicheren Umgebungen während der Streitfälle.

Wo dies noch von Bedeutung ist

Prognosemärkte sind der offensichtlichste Anwendungsfall, aber nicht der einzige.

ERC-8004 wurde am Donnerstag eingeführt und hat seine ersten beiden Register, Identität und Reputation, online gestellt. Das dritte, das Validierungsregister, das die Überprüfung der Arbeit von Agenten durch Dritte koordinieren wird, befindet sich noch in der Entwicklung, wird aber in Kürze verfügbar sein.

Das Validierungsregister ist flexibel gestaltet. Es wird mehrere Verifizierungsmethoden unterstützen: ZK-Proofs, TEE-Bescheinigungen, menschliche Richter oder durch Stakes gesicherte Wiederholungen, bei denen Validatoren eine Berechnung reproduzieren und die Ergebnisse vergleichen. Das Register selbst ist nur eine Koordinationsschicht – es zeichnet auf, dass ein Validator etwas überprüft hat und zu welchem Ergebnis er gekommen ist, ohne vorzuschreiben, wie er zu diesem Ergebnis gekommen ist.

Bei den meisten dieser Methoden ist die Reproduzierbarkeit irrelevant. ZK-Proofs überprüfen, ob eine Berechnung korrekt durchgeführt wurde, ohne sie erneut auszuführen. TEE-Attestierungen beweisen, dass ein bestimmter Code in einer sicheren Umgebung ausgeführt wurde. Bei beiden ist es nicht erforderlich, dass die zugrunde liegende Schlussfolgerung deterministisch ist.

Bei Operationen mit hohem Einsatz – beispielsweise bei einem Agenten, der bedeutendes Kapital verwaltet – könnte eine auf Wiederausführung basierende Validierung jedoch eine zusätzliche Sicherheitsebene bieten. In diesen Fällen würden Entwickler auf dieselbe Hürde stoßen wie Prognosemärkte: Ohne deterministische Inferenz kann man nicht zwischen einem Agenten, der „betrogen” hat, und einem, der einfach ein anderes Ergebnis aus einer nicht deterministischen Ausführung erhalten hat, unterscheiden.

Lösungen wie die von EigenAI würden hier zum Einsatz kommen und die Validierung auf Basis der Wiederausführung als eine von vielen Optionen ermöglichen. Dies ist keine Voraussetzung für die Funktion von ERC-8004, könnte aber für bestimmte Anwendungsfälle von Bedeutung sein.

Das sich abzeichnende Muster

Insgesamt ist die Idee von a16z, LLM-Richter einzusetzen, sinnvoll – transparent, neutral, resistent gegen Manipulationen. Aber ohne Reproduzierbarkeit fehlt dem Vorschlag die Verifizierungsebene, die ihn in großem Maßstab vertrauenswürdig machen würde.

Das Whitepaper von EigenAI legt nahe, dass diese Lücke geschlossen werden kann. Deterministische Inferenz ist mit den richtigen Einschränkungen erreichbar: standardisierte Hardware, benutzerdefinierte Bibliotheken, kontrollierte Ausführungsumgebungen. Die Kompromisse sind überschaubar – eine geringe Leistungseinbuße für die Möglichkeit, tatsächlich zu überprüfen, was eine KI getan hat.

Speziell für Prognosemärkte könnte dies eines ihrer Kernprobleme lösen. Es werden nicht nur das Modell und die Eingabe festgelegt, sondern auch die Infrastruktur, die garantiert, dass jeder die Auflösung erneut ausführen und das gleiche Ergebnis erhalten kann. Bevor wir dies tun, sollten wir jedoch zweimal darüber nachdenken, ob wir die Auflösung den Maschinen überlassen wollen.

Open in ChatGPT Open in Claude View as Markdown