Subscribe to Bankless or sign in
La semaine dernière,
a16z a publié une proposition visant à utiliser les LLM comme juges sur les marchés prédictifs.
L'idée est de verrouiller un modèle et une invite spécifiques dans la blockchain lors de la création d'un contrat sur le marché, de laisser les traders examiner les nuances de la résolution avant de parier, puis de l'exécuter lors de la résolution. L'objectif ici est d'éliminer les biais humains et les problèmes pouvant découler de la résolution des litiges basée sur des jetons.
Il y a cependant un problème que la proposition passe sous silence : les LLM ne sont pas conçus pour donner deux fois la même réponse.

Le goulot d'étranglement de la résolution
La résolution est devenue le point d'étranglement des marchés prédictifs à grande échelle.
Dans son article, a16z cite plusieurs marchés où la résolution a dégénéré en scandale :
- Le marché électoral vénézuélien, qui a enregistré un volume de plus de 6 millions de dollars, avant de dégénérer en accusations de résolution biaisée lorsque des observateurs ont allégué une fraude et que le gouvernement a déclaré le résultat inverse.
- Le marché du costume de Zelensky, qui a attiré 200 millions de dollars de paris sur la question de savoir si le président ukrainien porterait un costume lors d'un sommet de l'OTAN. Lors de la résolution du marché, les détenteurs de jetons UMA ont fait passer la résolution de « Oui » à « Non », malgré les informations médiatiques décrivant sa tenue comme un costume, ce qui a conduit les traders à crier à la tricherie et à un débat houleux sur ce qui constitue un « costume ».
- Un contrat de contrôle territorial en Ukraine spécifiait une résolution basée sur une carte en ligne particulière ; quelqu'un aurait modifié la carte pour influencer le résultat.
Les comités humains ont des conflits d'intérêts. Les systèmes de vote basés sur des jetons comme UMA posent des problèmes de « baleines » et de crédibilité lorsque de grands détenteurs votent sur des contrats sur lesquels ils ont parié — même s'ils votent de manière équitable, l'apparence nuit à la confiance.
Ainsi, comme tout bon capital-risqueur, a16z propose d'introduire l'IA. Comme mentionné, leur idée est qu'au moment de la création du contrat, un LLM et une invite spécifiques seraient verrouillés dans la blockchain. Les traders pourraient inspecter l'ensemble du mécanisme de résolution avant de parier : le modèle, l'invite, les sources d'information. S'ils n'aiment pas la configuration, ils ne négocient pas. Au moment de la résolution, le modèle engagé fonctionne avec l'invite engagée et produit un jugement. Aucune règle n'est modifiée en cours de route, aucune décision discrétionnaire n'est prise.
Les avantages sont réels. Les LLM résistent mieux à la manipulation que les comités humains : il est difficile de corrompre un modèle ou de modifier ses pondérations après son engagement. Ils sont transparents d'une manière que la gouvernance ne peut égaler. Et ils n'ont aucun intérêt financier dans les résultats, ce qui élimine le problème de conflit d'intérêts qui affecte le vote par jetons. Pour être clair, a16z ne propose pas de supprimer complètement les humains — ils reconnaissent la nécessité d'une gouvernance continue concernant les modèles auxquels faire confiance, la manière de traiter les erreurs évidentes et le moment de mettre à jour les valeurs par défaut.
Mais c'est là que la proposition se heurte à un problème.
Le fossé de la reproductibilité
Exécutez la même invite sur n'importe quel modèle majeur avec des paramètres identiques et vous obtiendrez des résultats différents. C'est ainsi que fonctionne l'inférence moderne.
Pourquoi ? Cela tient à la manière dont les GPU traitent les informations. Lorsque vous exécutez un modèle, des milliers de calculs sont effectués simultanément. L'ordre dans lequel ces calculs sont effectués peut varier légèrement à chaque fois, et ces petites variations se combinent pour donner des résultats finaux différents. Nous avons tous été témoins de ce phénomène, mais pour les chatbots, cela n'a aucune importance. Peu importe si le résumé de votre article est légèrement différent à chaque fois. Au contraire, cela apporte une certaine richesse. Mais pour déterminer qui sera rémunéré sur un marché de 200 millions de dollars, c'est évidemment une autre histoire. En théorie, la partie perdante pourrait relancer exactement la même invite et obtenir la réponse inverse.
Et maintenant ?
La proposition d'a16z part du principe que le verrouillage d'un modèle et d'une invite produit une résolution vérifiable et contrôlable. Mais si quelqu'un conteste le résultat et relance le même modèle avec les mêmes entrées, il pourrait obtenir un résultat différent et, si les marchés mentionnés ci-dessus nous apprennent quelque chose, c'est que de légères nuances peuvent avoir un impact significatif.
En conséquence, l'avantage de la « transparence » lié à l'ajout de l'IA s'évapore, car il n'y a pas de réponse canonique à vérifier.
Inférence déterministe d'EigenAI
Cette semaine, EigenAI a publié un livre blanc affirmant une reproductibilité bit à bit sur les GPU de production : un taux de correspondance de 100 % sur 10 000 tests, avec un ralentissement minimal de la vitesse d'inférence.
Enjoying this article?
Subscribe to Bankless or sign in
Pour y parvenir, il suffit de contrôler chaque couche de la pile, en verrouillant tous les endroits où la variabilité peut s'immiscer.
Au niveau matériel, toute personne exécutant ou vérifiant l'inférence doit utiliser des modèles de GPU identiques. Étant donné que différentes architectures de puces produisent des résultats différents pour les mêmes calculs, même lorsqu'on exécute le même code, la standardisation du matériel devient la première exigence.
Au niveau logiciel, Eigen remplace les bibliothèques mathématiques par défaut utilisées par les GPU pour effectuer des calculs par des versions personnalisées qui imposent un ordre strict. Les bibliothèques par défaut privilégient la vitesse plutôt que la cohérence ; les versions d'EigenAI sacrifient une petite partie des performances pour garantir des résultats identiques à chaque fois.

Résultat : à entrées identiques, le résultat est une fonction pure. Exécutez-le mille fois, vous obtiendrez des résultats identiques.
Pour que cela soit utile pour les marchés prédictifs ou tout résultat d'IA contesté, EigenAI associe l'inférence déterministe à un système de vérification. Leur modèle s'inspire des rollups de la blockchain. La partie qui effectue l'inférence publie des résultats cryptés. Les résultats sont acceptés par défaut, mais peuvent être contestés pendant une période de contestation. En cas de contestation, des vérificateurs indépendants réexécutent les calculs dans des enclaves matérielles sécurisées. L'exécution étant déterministe, la vérification devient simple : les résultats correspondent-ils ?
Si ce n'est pas le cas, la discordance déclenchera une pénalité économique prélevée sur la mise garantie. La partie d'origine perd de l'argent ; le contestataire et les vérificateurs sont rémunérés. La confidentialité reste intacte tout au long du processus : les invites restent cryptées, le décryptage n'ayant lieu que dans des environnements sécurisés vérifiés pendant les litiges.

Autres domaines concernés
Les marchés prédictifs sont l'exemple d'utilisation le plus évident, mais ce n'est pas le seul.
L'ERC-8004 a été lancé jeudi, mettant en ligne ses deux premiers registres, Identité et Réputation. Le troisième, le Registre de validation, qui coordonnera la vérification par des tiers du travail des agents, est encore en cours de développement mais sera bientôt disponible.
Le registre de validation est conçu pour être flexible. Il prendra en charge plusieurs méthodes de vérification : preuves ZK, attestation TEE, juges humains ou réexécution sécurisée par mise en jeu, où les validateurs reproduisent un calcul et comparent les résultats. Le registre lui-même n'est qu'une couche de coordination : il enregistre qu'un validateur a vérifié quelque chose et ce qu'il a conclu, sans imposer la manière dont il est parvenu à cette conclusion.

Pour la plupart de ces méthodes, la reproductibilité n'est pas pertinente. Les preuves ZK vérifient qu'un calcul a été effectué correctement sans le réexécuter. L'attestation TEE prouve qu'un code spécifique a été exécuté dans un environnement sécurisé. Aucune des deux ne nécessite que l'inférence sous-jacente soit déterministe.
Cela dit, pour les opérations à haut risque (un agent gérant des capitaux importants, par exemple), la validation basée sur la réexécution pourrait ajouter une couche supplémentaire d'assurance. Dans ces cas, les développeurs se heurteraient au même obstacle que les marchés de prédiction : sans inférence déterministe, il est impossible de distinguer un agent qui a « triché » d'un autre qui a simplement obtenu un résultat différent à partir d'une exécution non déterministe.
Des solutions telles que celle d'EigenAI trouveraient leur place ici, permettant la validation basée sur la réexécution comme une option parmi d'autres. Ce n'est pas une exigence pour le fonctionnement de l'ERC-8004, mais pour certains cas d'utilisation, cela pourrait avoir son importance.
La tendance émergente
Dans l'ensemble, l'idée d'a16z concernant les juges LLM est judicieuse : transparente, neutre, résistante à la manipulation. Mais sans reproductibilité, la proposition manque de la couche de vérification qui la rendrait fiable à grande échelle.
Le livre blanc d'EigenAI suggère que cette lacune peut être comblée. L'inférence déterministe est réalisable avec les bonnes contraintes : matériel standardisé, bibliothèques personnalisées, environnements d'exécution contrôlés. Les compromis sont gérables : une légère baisse des performances en échange de la possibilité d'auditer réellement ce qu'a fait une IA.
Pour les marchés prédictifs en particulier, cela pourrait résoudre l'un de leurs problèmes fondamentaux. Il s'agit de verrouiller non seulement le modèle et la requête, mais aussi l'infrastructure garantissant que n'importe qui peut réexécuter la résolution et obtenir la même réponse. Avant de le faire, cependant, il vaut mieux réfléchir à deux fois avant de confier la résolution aux machines.
