Unichain - Sponsor Image Unichain - Faster swaps. Lower fees. Deeper liquidity. Explore Unichain on web and wallet. Friend & Sponsor Learn more
Podcast

LIMITLESS: Aravind Srinivas: Perplexity CEO's All-In Gamble to Take Down Google

Aravind Srinivas, CEO von Perplexity, erörtert in der Sendung, wie KI-Agenten, Personalisierung und neue Browsing-Modelle das Internet-Erlebnis verändern könnten.
Aug 19, 202501:09:40
1
0

Inside the episode

Aravind:
[0:00] Comet ist, wir nennen es im Grunde Browser die Geschwindigkeit der Gedanken. Wir haben also alle eine Menge Gedanken, während wir im Browser sind. Und wir schaffen es nicht, sie alle zu Ende zu bringen, weil jede Aufgabe, die wir im Kopf haben, eine Menge Zeit in Anspruch nimmt. Comet soll also Perplexity und den Browser auf eine sehr native Art und Weise vereinen, indem Perplexity nicht mehr nur Antworten gibt, sondern auch Aktionen für uns ausführt. Und Perplexity entwickelt sich von einem reinen Abrufen von Kontext aus dem Web zu einem Abrufen des gesamten Kontexts.

Josh/Ejaaz:
[0:35] Wenn Sie sich das anhören, sind Sie Abonnent von Bankless, dem besten Krypto-Podcast der Welt. Aber es gibt noch eine andere Sendung, die Sie kennen sollten, sie heißt Limitless. Limitless kann man sich wie Bankless vorstellen, nur dass wir statt Krypto die Grenzen der künstlichen Intelligenz erforschen. Alles, was Sie gerne über künstliche Intelligenz wüssten, ist in diesen wirklich kurzen und übersichtlichen 25-minütigen Episoden zusammengefasst. Überlegen Sie, wie Sie den Wert von ChatGPT optimal ausschöpfen können, welches Modell Sie wann einsetzen sollten, wenn Sie einen Großteil der Produktivität und der Arbeit, die Sie tagtäglich erledigen, auslagern möchten. Und dann sprechen wir auch mit den Leuten, die das umsetzen. Die heutige Folge ist nicht anders. Bei uns ist der CEO von Perplexity, einer der beliebtesten KI-Anwendungen der Welt, der uns sagt, dass Google Chrome und Safari im Grunde tot sind. Sie können sie wegwerfen. Sie brauchen sie nicht mehr. Er entwickelt die Zukunft des Browsers. Tatsächlich hat Perplexity gerade ein Angebot zum Aufkauf von Google Chrome gemacht. Es steht also wirklich viel auf dem Spiel, wie wir mit dem Internet umgehen und wie wir es für ein KI-zentriertes Erlebnis optimieren können. Ich fand das total faszinierend, und ich hoffe, dass Sie das auch tun werden. Wenn Ihnen diese Folge also gefallen hat, tun Sie mir einen Gefallen. Es bedeutet mir wirklich sehr viel. Wenn du in die Beschreibung gehst, auf den Link klickst, Limitless abonnierst, uns in den sozialen Netzwerken anschaust und es mit deinen Freunden teilst. Das hilft uns wirklich sehr, unsere Mission zu unterstützen. Heute sind David, den Sie kennen und lieben, ich selbst, Josh, und unser Co-Moderator Ejaz bei mir, und wir verraten Ihnen, wie Sie diesen Trends einen Schritt voraus sein können, wie Sie dem KI-Browser-Trend einen Schritt voraus sein können und einen Großteil Ihrer Produktivität auf KI übertragen können, damit Sie mehr Zeit für die Dinge haben, die Sie tun wollen.

Josh/Ejaaz:
[1:54] zu tun. Aber kommen wir ohne Umschweife direkt zur Episode. Mit dem CEO von Perplexity.

David:
[1:58] Im wilden Westen von DeFi sind Stabilität und Innovation alles, und deshalb sollten Sie sich FRAX Finance ansehen, das Protokoll, das Stablecoins, DeFi und Rolex revolutioniert. Das Herzstück von FRAX Finance ist FRAX USD, das von BlackRocks institutionellem Biddle-Fonds unterstützt wird.

David:
[2:12] FRAX hat FRAX USD entwickelt, um klassenbeste Renditen aus DeFi, T-Bills und Carry-Trade-Renditen in einem zu erzielen. Gehen Sie einfach zu FRAX.com und setzen Sie ihn ein, um einige der besten Renditen in DeFi zu erzielen. Sie wollen noch mehr? Überbrücken Sie Ihre FRAX USD mit dem FRAX still layer 2 für die gleiche Rendite plus FraxTile-Punkte und erkunden Sie das vielfältige Layer-2-Ökosystem von FraxTile mit Protokollen wie Curve, Convex und mehr, die alle Early Adopters belohnen. Frax ist nicht nur ein Protokoll, sondern eine digitale Nation, die durch den FXS-Token angetrieben und von seiner globalen Gemeinschaft verwaltet wird. Erwerben Sie FXS über Frax.com oder Ihren bevorzugten DEX, setzen Sie es ein und gestalten Sie die Zukunft der Frax Nation mit. Sind Sie bereit, sich an die Spitze von DeFi zu setzen? Besuchen Sie jetzt Frax.com, um mit FraxUSD und FraxUSD-Einsätzen zu verdienen. Und für banklose Hörer können Sie frax.com slash r slash bankless verwenden, wenn Sie zu Fraxel wechseln, um exklusive Fraxel-Vorteile und erhöhte Belohnungen zu erhalten. Stellen Sie sich eine Welt vor, in der das traditionelle Finanzwesen nahtlos auf die Macht der Blockchain trifft.

David:
[3:04] Das ist es, was Mantle mit Blockchain für das Bankwesen bahnt, eine revolutionäre neue Kategorie an der Schnittstelle von TradFi und Web3. Das Herzstück ist UR, die weltweit erste Geld-App, die vollständig auf der Kette basiert. Sie bietet Ihnen ein Schweizer iBand-Konto, das Fiat-Währungen wie den Euro, den Schweizer Franken, den US-Dollar oder den Renminbi mit Kryptowährungen an einem Ort vereint. Genießen Sie die Benutzerfreundlichkeit in der realen Welt sowie das Vertrauen und die Programmierbarkeit der Blockchain. Transaktionen werden direkt auf die Blockchain gebucht, kompatibel mit TradFi Rails und mit integrierten DeFi-Futures. UR verwandelt Mantle Network in die ultimative Plattform für On-Chain-Finanzdienstleistungen, die Zahlungen, Handel und Vermögenswerte wie MI4, das METH-Protokoll und Functions FBTC vereint, unterstützt durch Entwicklerzuschüsse und Ökosystemanreize,

David:
[3:43] Und Top-Distribution durch die UR-App, Belohnungsstationen und den Bybit-Startpool. Für MNT-Inhaber, jede wirtschaftliche Aktivität in Sie sind treibt Wert zurück zu Ihnen, verkörpert den gesamten Stack und das zukünftige Wachstum dieses Super-App-Ökosystems. Folgen Sie Mantle auf X unter Mantle underscore official für die neuesten Updates zu Blockchain für das Banking. Das ist X.com Schrägstrich Mantle Unterstrich offiziell. Das Layer-2-Universum von Ethereum explodiert vor Möglichkeiten, aber wenn Sie nach dem besten Ort suchen, um Ihre Token zu parken und zu bewegen, machen Sie Ihren nächsten Halt bei Unichain. Erstens: Liquidität. Unichain beherbergt den liquidesten Uniswap V4-Einsatz auf allen Layer 2, was Ihnen tiefere Pools für Flaggschiff-Paare wie ETH USDC bietet. Mehr Liquidität bedeutet bessere Preise, weniger Slippage und reibungslosere Swaps. Genau das, wonach sich Händler sehnen. Die Zahlen bestätigen dies. Unichain führt alle Layer 2s im Gesamtwert, der für Uniswap v4 gesperrt ist. Und es ist nicht nur tief. Es ist schnell und völlig transparent. Sie wurde speziell als Basis für DeFi und kettenübergreifende Liquidität entwickelt. Wenn es um die Kosten geht, ist Unichain ein No-Brainer. Die Transaktionsgebühren liegen etwa 95 % unter denen des Ethereum-Mainnets, was den Preis für die Schaffung von oder den Zugriff auf Liquidität senkt. Möchten Sie über Unichain auf dem Laufenden bleiben?

David:
[4:44] Besuchen Sie unichain.org oder folgen Sie Unichain auf X für alle Updates.

Aravind:
[4:48] Wir sind hier mit Arvind Sreenivas von Perplexity. Arvind, willkommen bei Limitless. Danke, dass ich dabei sein darf.

David:
[4:53] Arvind, wir wollen etwas von dir lernen. Wir bei Limitless sind der Meinung, dass die Zukunft ganz anders aussehen wird als heute, wahrscheinlich beginnend mit dem Internet. Wir möchten also erfahren, wie Sie glauben, dass das Internet in fünf Jahren anders sein wird, und wie diese These Ihre Führung Ihres Unternehmens Perplexity beeinflusst hat.

Aravind:
[5:12] Es ist nie einfach, sich die Welt in fünf Jahren vorzustellen, selbst unter normalen Umständen. Und wir leben in einer ganz anderen Welt, in der die KI in einem Tempo voranschreitet, an das wir einfach nicht gewöhnt sind. Ich würde also lügen, wenn ich sagen würde, dass ich wirklich weiß, wie die Welt in fünf Jahren aussehen wird. Und ich glaube auch nicht, dass das jemand wirklich weiß. Denn es ist so schwierig, mit Szenarien zu arbeiten, in denen sich die Fähigkeiten der KI alle paar Monate weiterentwickeln. Drei Monate zuvor waren alle agenturischen Fähigkeiten Ketten von Aktionen und Ketten von Tool-Aufrufen, die nicht zuverlässig waren.

Aravind:
[5:54] Man konnte die Konturen sehen, aber sie waren nicht so klar definiert wie heute. Und selbst heute ist es nicht so zuverlässig, wie es sein müsste, wenn man wirklich nur einen Mitarbeiter pro Person hat, der nur eine KI ist. Ich gehe hier also definitiv nur Wetten ein. Es wird eine Menge Agenten geben, die im Internet surfen und Aufgaben für andere Menschen erledigen. Wir werden nicht mehr im Internet surfen für Dinge, die uns keinen Spaß machen.

Aravind:
[6:27] In gewisser Weise zahlt niemand gerne seine Kreditkarten. Niemand überweist gerne Geld von einem Bankkonto auf ein anderes. Niemand bucht gerne über veraltete Websites Hotels. Niemand benutzt gerne diese wirklich archaischen UI, um einen Mietwagen zu finden, oder um in letzter Minute einen Arzttermin in einer neuen Stadt zu bekommen. Das sind alles Dinge, bei denen die verschiedenen Websites nicht wirklich gut zu bedienen sind. Sie sind fehlerhaft. Es gibt keine Kundenbetreuung. Man muss sich irgendwo eine Nummer suchen. Man muss sich an vier oder fünf verschiedenen Stellen informieren, um einen Anwalt für etwas zu finden. Das sind alles sehr schwierige Wege, auf denen das Web heute gestaltet ist. Und KI hat das bisher noch nicht gelöst. Die KI hat es geschafft, Informationen aus vielen verschiedenen Quellen zu verarbeiten und zusammenzufassen. Das ist es, was Perplexity im Wesentlichen begonnen hat. Aber der nächste Schritt für KI ist, ehrlich gesagt, die alltäglichen, langweiligen Aspekte der eigentlichen Arbeit für Sie zu übernehmen. Genau. Und dann geht man einfach los und surft zum Spaß im Internet auf Websites, die einem Spaß machen.

Aravind:
[7:35] Und verschiedene Website-Besitzer können ihre Websites tatsächlich ansprechend gestalten, weil KI eine Menge Code schreiben kann. Ich wette also, dass die Zukunft glorreich sein wird. Ich bin sehr optimistisch, dass die Menschen viel mehr Spaß haben werden. Und Unterhaltung wird in den kommenden Jahren ein Weg sein, um noch mehr Geld zu verdienen. Kreative, wie Podcaster, wie Sie, wie viele, viele andere Formate der Kommunikation und des Informationsaustauschs werden sich ausbreiten. Und so werden die Menschen auch mehr Zeit für sich selbst haben. Viele der Methoden, mit denen KI-Firmen ihre Tools motivieren, sind so. Nach dem Motto: Hey, die Leute haben kaum noch Zeit. Also lass mich die KI die Arbeit für dich machen.

Aravind:
[8:18] Das ist nur teilweise wahr. Die Menschen haben tatsächlich eine Menge Zeit. Sie finden die Arbeit nur langweilig. Deshalb breitet sich die Zeit aus, um die Lücke zu füllen. Wenn man z.B. zwei Stunden für etwas einplant, das nur 15 Minuten dauert, und die Arbeit für 15 Minuten so langweilig ist und man sich mit so vielen langweiligen Arbeitsabläufen herumschlagen muss, verbringt man trotzdem zwei Stunden damit. Und das ist der Grund, warum die Leute es hassen, zu arbeiten. Sie werden müde und haben dann keine Lust mehr, irgendetwas zu tun. Und das bedeutet, dass wir alle viel mehr Spaß miteinander haben werden und das Web auf unsere eigene Art und Weise konsumieren werden. Wir werden KI haben, die uns proaktiv sagt, was wir konsumieren sollen. Wir können aber auch selbst konsumieren. Man kann ein- und ausschalten, wie viel KI-Abhängigkeit man in seinem Leben haben möchte. Es wird also eine sehr agentur- und neugiergesteuerte Welt sein. Das ist einer der Gründe, warum wir eine Marke rund um die Neugier aufgebaut haben, weil wir glauben, dass dies die eine menschliche Emotion ist, die, Entschuldigung, menschliche Eigenschaft, ich würde nicht Emotion sagen, sondern menschliche Eigenschaft, die im Zeitalter der KI noch wichtiger ist, insbesondere das Wissen, wie man die KI nutzt und was man in einer Welt tun kann, in der KI in der Lage ist, viele Dinge zu tun, die wir früher getan haben.

David:
[9:33] Gehen Sie noch ein bisschen mehr darauf ein, auf die Neugier als führende menschliche Triebkraft für die Art und Weise, wie wir uns im Internet bewegen werden. Warum ist Neugierde so wichtig? Und wie wird die menschliche Neugier vielleicht anders aussehen, wenn wir all diese erstaunlichen Werkzeuge haben?

Aravind:
[9:49] Zu unserer Verfügung stehen? Ich glaube, die Welt hat mehr KI als die Fähigkeiten, die man heute braucht, um sie zu nutzen. Die meisten der KIs sind ziemlich gut. Ja, wissen Sie, es gibt Fehler, die von all diesen KIs gemacht werden, Halluzinationen, manchmal sind Chatbots zu psychophantisch. Weißt du, sie sind nicht in der Lage, Aufgaben zuverlässig zu erledigen. Ja, aber selbst der derzeitige Stand, bei dem sie für Sie Code schreiben, Websites für Sie erstellen, für Sie recherchieren und Ihre Fragen beantworten können, ist schon unglaublich. Unglaublich, aber verglichen mit der Anzahl der Menschen, die es täglich nutzen, ist es nicht so hoch. Die meisten Menschen arbeiten immer noch auf traditionelle Weise. Wir haben einen Browser namens Comet. Mit ihm kann man sich mit Hilfe einer KI ein YouTube-Video ansehen. Ich muss mir nicht einmal mehr die ganzen Videos ansehen. Er hilft mir beim Verfassen von E-Mails, LinkedIn-Posts, Rekrutierungs-E-Mails, Rekrutierungsnachrichten, bei der Suche nach Kandidaten, die ich ansprechen möchte, bei der Suche nach all den alten E-Mails, die ich nicht mehr lesen möchte, bei der Abmeldung von Spam-Mails. Bei all diesen Dingen kann es mir bereits helfen. Aber ich muss manchmal neugierig sein, wie ich es tatsächlich für neue Zwecke einsetzen kann, die ich noch nicht ausprobiert habe. Es liegt an meiner Kreativität. Es liegt an mir selbst, diese zusätzliche Kraft, die ich dadurch erhalte, zu kanalisieren. Ich würde also sagen, das ist der aktuelle Aspekt, bei dem Neugier kurzfristig nützlich ist.

Aravind:
[11:16] Langfristig, wenn das alles so ist, dass man einfach davon ausgeht, dass man die KI standardmäßig bei allem, was man tut, dabei haben muss. Nehmen wir mal an, das ist der Zustand. Man muss trotzdem neugierig sein, woran man überhaupt arbeitet. Was ist das nächste Projekt, das Sie beginnen? Welche Art von Startaufforderungen können Sie der KI geben, auch wenn sie Ihnen bei der Erledigung der Aufgaben hilft?

Aravind:
[11:37] Es geht darum, dass man kanalisiert, welche Fragen man stellt, welches ursprüngliche Projekt man anfängt, an dem man mit seiner Vorstellungskraft arbeitet, zum Beispiel, okay, nehmen wir an, Einstein hatte alle wissenschaftlichen Werkzeuge, richtig? Es liegt immer noch an ihm, Fragen zu stellen wie: Was passiert, wenn wir mit Lichtgeschwindigkeit reisen? Bricht dann die gesamte Newtonsche Mechanik zusammen? Sollten wir ein völlig neues Verständnis der Welt entwickeln? Okay, warum ist das überhaupt eine nützliche Frage, die man stellen sollte? Selbst wenn man die Antwort darauf nicht wüsste, könnte man diese Fragen stellen und tiefer gehen, oder, was das betrifft, Einsteins Weisheit in Frage stellen und auf die Subteilchenebene gehen und eine Unterscheidung zwischen Teilchen- und Wellennatur treffen. Das sind alles Dinge, die Physiker früher aus reiner Neugier getan haben. Und Jeffrey Hinton war sehr neugierig darauf, was passieren würde, wenn wir Computer bauen würden, die das Gehirn simulieren, obwohl sich in der Informatik alles um deterministische Programme dreht.

Aravind:
[12:37] KI ist im Grunde genommen ein stochastisches Programm. In der KI kann man auch heute noch kein Ergebnis garantieren. Keine LLM-Dekodierung ist also immer gleich. Die Leute hatten also ihre eigene wissenschaftliche Neugierde, um Dinge zu erforschen. Aber das war bis jetzt eine rein akademische Übung. Mit dem Zugang zu allen KI-Werkzeugen wird dies nicht mehr nur den Eliten vorbehalten sein. Es wird nicht mehr nur den Professoren und Wissenschaftlern vorbehalten sein. Jeder, der eine kindliche Neugier hat, wenn man ein Kind hat, oder wenn man als Kind jemanden in der Familie hat, mit dem man etwas unternimmt, stellt die grundlegendsten Fragen, die einen stutzig machen, richtig? Es ist ein tolles Gefühl, wenn man sie beantworten kann, aber es fühlt sich auch so an, als hätte ich nie wirklich darüber nachgedacht. Ich habe es einfach als gegeben hingenommen, was mir die Leute erzählt haben oder was ich im Internet darüber gelesen habe. Ich denke also, dass wir uns auf diese Art von Welt zubewegen.

Aravind:
[13:32] Und wenn man tiefer und tiefer geht und mehr Fragen stellt, und wenn die KI einem dabei hilft, mehr Fragen zu stellen, also nicht nur die Fragen beantwortet, sondern weitere Fragen vorschlägt und einen in die Kaninchenlöcher führt, dann bekommt man die Freude, die die frühen Web-Anhänger mit Hyperlinks und Wikipedia und eingebetteten Webseiten hatten. Das Internet war für Bibliothekare, Historiker, Intellektuelle und Akademiker sehr attraktiv. So hat es angefangen. Das war auch der Grund, warum Amazon anfing, Bücher zu verkaufen, denn man wollte das frühe Publikum des Internets ansprechen, das zufällig aus Menschen bestand, die sich für Bücher interessierten. Ich glaube, das ist es, wie sich KI heute anfühlt. Sie wird vor allem von den ersten Anwendern genutzt, die Denker und Programmierer sind, sowie von Intellektuellen und Akademikern. Aber da die Werkzeuge immer einfacher zu benutzen sind und die Werkzeuge immer mehr Befugnisse erhalten, wird sie viel zugänglicher werden. Und so wird die normale Person, die neugierig ist, tatsächlich eine Menge Superkräfte haben. Und das wird die Welt hoffentlich auf eine sehr positive Weise verändern.

Josh/Ejaaz:
[14:38] Ich finde es toll, wie Sie das Internet und die künstliche Intelligenz als ein Mittel zur Förderung von Neugier und Kreativität darstellen. Ich denke zurück an die Zeit, als ich meine erste CD-ROM gebootet habe oder als ich auf RuneScape war.

Josh/Ejaaz:
[14:53] zum ersten Mal gespielt habe und diese neue Welt des Internets erkunden konnte. Ich bin neugierig, KI wird typischerweise als etwas gebrandmarkt, das die Welt automatisieren wird. Und Ihr Bild von Neugier und Kreativität ist so ähnlich. Glauben Sie, dass es einen schmalen Grat gibt zwischen einer KI, die den Einzelnen einschränkt, was er sich ansehen und erforschen kann, und etwas, das er als Werkzeug für seine Kreativität nutzen kann? Ich denke darüber nach, wie man diese Grenze bei der Entwicklung von Produkten überschreitet, die man selbst entwickelt.

Aravind:
[15:24] Unser Produkt wurde entwickelt, um Ihnen zu helfen, sich im Web zurechtzufinden und effektiver zu suchen, als sich durch organisierte 10 blaue Links zu wühlen, richtig? Und meiner Meinung nach war die Fähigkeit, eine Frage zu stellen, gar nicht vorhanden. Wir alle, ich würde sagen, wenn man die Terminologie des maschinellen Lernens verwendet, haben uns zu sehr an die Fähigkeit gewöhnt, ein paar Schlüsselwörter einzugeben, die Links zu öffnen und diese Links zu lesen und dann die relevanten Informationen zu unserer ursprünglichen Frage in unserem Kopf zusammenzufassen.

Aravind:
[15:58] Und dann kommen wir zu den Schlussfolgerungen, die wir haben. So haben wir es in den letzten zwei Jahrzehnten gemacht, weil wir einfach kein Werkzeug hatten, mit dem wir unsere Fragen direkt stellen konnten. Jetzt gibt es das. Was wir also tun, ist, mehr Fragen zu stellen. Die erste Frage, aber auch eine Menge von Folgefragen. Und das führt zu einer ganz anderen Art und Weise, wie Sie beginnen. Lassen Sie mich Ihnen ein Beispiel dafür geben, wie sich mein eigenes Leben verändert hat. Wenn ich früher ein Thema lesen und verstehen wollte, habe ich die Artikel, die Blogbeiträge sehr linear gelesen. Ich würde gerne eine Literaturübersicht erstellen. Ich sammelte eine Reihe von Quellen, um diese spezielle Materialquelle zu lesen. Und dann würde ich, nachdem ich das alles gelesen habe, meine eigenen Schlussfolgerungen ziehen. Ich hätte immer noch eine Menge Fragen, aber so würde ich es machen. Jeder hat es so gemacht. Jetzt ist es ganz anders. Nehmen wir an, ich bin der CEO des Unternehmens. Ich habe keine Zeit mehr, mich in irgendetwas zu vertiefen. Aber ich möchte wissen, was es mit dieser neuen Sache auf sich hat, über die alle reden. MCP war ein Modewort, und ich wollte wissen, was es ist. Ich muss keine Anthropics-Dokumentation und Blogbeiträge lesen, um es zu verstehen. Ich kann die Perspektive des Autors einfach ignorieren und mich direkt fragen: Was zum Teufel ist dieses MCP-Ding?

Aravind:
[17:23] Wie, Sie wissen schon, ist das ein Schlagwort? Ist das so etwas wie ein Profi? Alles, was es tut, ist eine andere Art, JSONs zwischen Servern und Modellen zu verschieben, oder steckt da mehr dahinter? Warum nennen es alle USB-C für die KI oder das Internet?

Aravind:
[17:41] Wie, was ist die große Sache daran? Ich kann Dinge so fragen, dass Fragen mein Lernen leiten und nicht das Material und der Blogpost mein Lernen leiten.

Aravind:
[17:54] Denn nachdem ich fünf verschiedene Seiten gelesen habe, habe ich immer noch eine Menge Fragen. Warum also nicht? Ich habe mit der Frage angefangen und nach etwa 20 Fragen habe ich eine Menge herausgefunden. Und jetzt kann ich das Material vollständig lesen. Es ist so, als ob man die Reihenfolge umdreht. Das ist ein persönlicher Geschmack. Ich empfehle nicht jedem, das zu tun, aber da ich nicht viel Zeit habe, lerne ich die Dinge im Moment so. Es passiert das Gleiche. Was auch immer mit meinem Körper passiert, was auch immer ich trainiere, welche Lebensmittel ich zu mir nehme, ich schaue mir keine Youtube-Videos über Diäten an, die von Bodybuildern empfohlen werden, und wie ich Fett verliere, ohne Muskeln zu verlieren, ich muss mir keine 20 Videos anschauen, ich kann einfach kritische Fragen zu den Videos stellen, indem ich den Kommentar-Browser benutze, mir sage, was hier eigentlich gegen dich spricht, und ich kann ihn bitten, eine Reihe von Artikeln zu überprüfen. Und ich glaube, das wird in Zukunft noch viel toller werden. Kinder müssen das Web oder das Internet nicht mehr so konsumieren, wie wir es als Kinder getan haben. Und die Interaktion per Sprache wird sich noch natürlicher anfühlen. Und wenn man dann noch die Möglichkeit hat, Kontext aus dem, was man sieht, zu ziehen und Fragen zu stellen, wird es sich noch gerätefreier und natürlicher anfühlen. Ich freue mich also noch mehr auf die nächste Generation, weil sie es sind.

Aravind:
[19:22] Sie sind sehr glücklich. Ich weiß nicht, wie alt ihr seid, aber ich schätze, ihr seid alle in meiner Altersgruppe. Also uns, uns ging es gut. Wir haben zumindest das frühe Web genossen. Ich habe das Gefühl, dass die Generation nach uns wirklich von diesem ganzen Social-Media-Schub beeinflusst wurde. Und sie haben sich viel Wissen angeeignet, indem sie sich Filmrollen und Kurzfilme und all diese Dinge angesehen haben. Und ich glaube nicht, dass das gut ist, weil es im Grunde genommen negativ ist. Ich glaube, die Generation danach wird sagen: "Schau dir die Filmrollen für mich an und sag mir, was für mich interessant sein könnte. Ich vertraue auf meine Beziehung zu meinem Agenten, der mich wirklich versteht und meine Vorlieben und Ziele kennt, um das Internet für mich zu konsumieren und es mir so zu geben, wie ich es möchte. Diese Agentur und das Vertrauen, das du mit deiner KI bekommst, um Dinge für dich zu tun und den Lärm für dich herauszufiltern und dir zu helfen, die Wahrheit zu finden und neugierig zu bleiben. Das ist es, was wir mit unseren Produkten in diesem Unternehmen schaffen wollen.

Josh/Ejaaz:
[20:28] Das gefällt mir. Sie beschreiben im Wesentlichen eine neue Art von Online- oder Browsing-Erfahrung, richtig?

Aravind:
[20:35] Als ich Mark Andreessen einen Kommentar gezeigt habe, wollte er wissen, ob ich zu x.com gehe, durch meine 100 Tweets in meinem Feed scrolle, basierend auf meinem Browserverlauf, das Rauschen herausfiltere und mir nur die 20 relevanten Tweets zeige. Und das klappte erstaunlich gut. Wie wäre es, wenn ich auf eine Website gehe, auf eine Schaltfläche klicke und nicht einmal diese ganze Eingabeaufforderung schreiben muss.

Aravind:
[21:00] Und dann wird die Website einfach so gerendert, wie ich sie konsumieren möchte. Kein Website-Besitzer oder Algorithmus-Ersteller hat die Zeit, alles bis ins kleinste Detail an jede Person anzupassen, richtig? Elon Musk wird eine Änderung am X-Algorithmus vornehmen. Und dann sieht man eine Menge politischer Beiträge oder eine Menge von Memes. Du wirst viele zufällige Videos oder Anime-Inhalte sehen. Du hast keine Ahnung, warum du das alles plötzlich siehst. Und dann ist es auch nicht seine Schuld. Er versucht nur, ein paar Kennzahlen für das Unternehmen oder vielleicht für sich selbst zu maximieren. Als ob es sein Eigentum wäre. Und das ist die, na ja, ich will nicht, dass wir weiter darin leben. Wir müssen die Möglichkeit haben, die Dinge so zu tun, wie wir es wollen.

Josh/Ejaaz:
[21:48] Ja, es hört sich so an, als ob du beschreibst, dass die aktuelle Welt, in der wir uns online umsehen, irgendwie zu sehr auf Fähigkeiten zugeschnitten ist, die wir im Moment nicht brauchen. Was also

Aravind:
[22:00] Denkst du, dass es.

Josh/Ejaaz:
[22:01] Die wichtigen Fähigkeiten, auf die wir uns jetzt konzentrieren sollten? wie das neue jüngere Publikum, das heute ins Internet kommt?

Aravind:
[22:08] Ich würde sagen, kritisches Denken. Hier ist also eine Fähigkeit, die ich mir mit der Zeit angeeignet habe, und zwar, dass jedes Mal, wenn man ein Buch oder eine Biografie von jemandem liest, es sei denn, es wurde von jemandem geschrieben, der ziemlich neutral ist, es normalerweise eine Kritik an der Person ist, richtig? Normalerweise ist es etwas, mit dem die Person zusammengearbeitet hat und das das Unternehmen oder sie selbst in ein sehr positives Licht rücken soll. Am Ende bekommt man also eine sehr voreingenommene Perspektive. Ich würde also gerne eine KI haben, wenn ich ein Buch zusammen lese, die jedes Kapitel kritisch überprüft und mir Perspektiven aufzeigt, die im Gegensatz zu denen des Autors stehen. Das ist es, was ich im Moment mache, wenn ich Bücher lese. Ich habe einen Sidecar-Assistenten in meinem Browser, den ich einfach frage: "Hey, sag mir doch mal, was du in diesem Kapitel gelesen hast und worauf ich achten sollte, weil der Autor vielleicht falsch liegt. Und das ist nur meine Suche nach weiteren Perspektiven, so ein bisschen die Peter Thiel-ähnliche, konträre Ideologie. Nochmals, ich will nicht aus Jux und Tollerei konträr sein. Ich will einfach alles wissen, was möglich ist. Und das kritische Denken ist definitiv von entscheidender Bedeutung.

Aravind:
[23:26] Und die Tatsache, dass man alles so konsumieren kann, wie man will, hilft einem definitiv dabei, nicht in Echokammern zu geraten. Das öffnet hoffentlich den Geist der meisten Menschen, um viele Dinge, die sie im Internet sehen, zu hinterfragen. Und ich glaube, das Web wird auch mit einer Menge KI-Müll gefüllt sein. Ich möchte nicht den Eindruck erwecken, dass KI eine so tolle Technologie ist, dass man sich einfach zurücklehnen und die Fahrt genießen kann. Es wird viel Mist geben, eine Menge von KI-generierten Fehlinformationen, KI-generierte Videos, die so fotorealistisch sind, dass man nicht einmal sagen kann, ob sie echt sind oder nicht, und dann werden Inhalte im Internet viel mehr von KI als von Menschen geschrieben werden. Die einzige Möglichkeit, dagegen anzukämpfen, ist eine KI wie die unsere oder wie die, die andere Menschen entwickeln, die Ihnen bei der Suche nach der Wahrheit hilft und Sie sogar ohne große Anstrengung durch die richtige Art von Aufforderungen, die bereits im Cache gespeichert sind, dorthin führt und Ihnen dabei hilft, die Dinge so zu konsumieren, wie Sie es wollen, und die wirklich für Sie arbeitet und Ihre Interessen wahrt. Stellen Sie sich eine Welt vor, in der Agenten das Einkaufen und die Reisebuchung für Sie übernehmen, richtig?

Aravind:
[24:33] Und es könnte eine Welt geben, in der die Unternehmen, die sich dafür entscheiden, versuchen, die Aufmerksamkeit des Agenten auf sich zu lenken, z. B. durch Werbung auf Agentenebene. Wie kann man den Nutzer schützen, der das nicht möchte? Möglicherweise könnte es so funktionieren, dass der Nutzer und der Agent ihren eigenen Vertrag haben, einen Handschlag.

Aravind:
[24:57] Es ist alles in Form eines Systemprompts und dieser Prompt ist geschützt. Man kann sie nicht injizieren. Das gibt es heute nicht mehr. Sie können Prompt-Injektionen in alles machen. Das würde also heute nicht funktionieren. Aber stellen Sie sich eine Zukunft vor, in der wir dies zuverlässig tun können. Egal, was der Werbetreibende versucht, um den Agenten dazu zu bringen, ihn gegenüber einem anderen Händler zu bevorzugen, die Eingabeaufforderung des Benutzers an den Agenten schützt ihn vor der Art von Werbemechanismus. Wir müssen also alle Arten von Versionen der derzeitigen Systeme entwickeln. Das ist heute noch sehr im Entstehen begriffen. Es fühlt sich an wie in den frühen Tagen des Internets, aber das ist es, was ich gerne sicherstellen würde, um sicherzustellen, dass die Menschen auch in Zukunft vor KI-Müll und Werbung und all dem geschützt sind.

David:
[25:39] Im UX-Design gibt es diese Vorstellung, dass eine bessere UX weniger Klicks seitens der Menschen erfordert. Wenn wir sie dazu bringen können, weniger Male zu tippen, um das Gewünschte zu bekommen, wird das allgemein als gute UX angesehen. Und ich sehe, dass diese Einstellung auch auf KI-Agenten angewandt wird: Wir können KI-Agenten dazu bringen, Dinge für ihre Benutzer zu tun. Und das versetzt den Menschen in eine sehr passive Rolle. Und das hat Vor- und Nachteile, oder? Manchmal möchte ich nicht so viel nachdenken, sondern einfach nur unterhalten werden, und das gibt mir ein gutes Gefühl. Ich mache mir aber auch Sorgen über die Kosten, die dadurch entstehen, dass mein Gehirn immer häufiger ausgeschaltet wird, wenn ich in den Standardmodus wechsle. Wie denken Sie bei der Entwicklung von Perplexity darüber nach, ob der Mensch aktiv oder passiv auf dem Fahrersitz sitzt, wenn wir Dinge automatisieren können? Aber vielleicht wollen wir auch einen aktiveren Fahrer ermutigen, wenn es um die Verwaltung dieser Tools geht. Wie denken Sie über diesen Kompromiss?

Aravind:
[26:38] Ja, das ist eine gute Frage. Wir denken darüber in dem Sinne nach, dass der Benutzer aktiv in den Prozess einbezogen wird. Zumindest bei agentenbasierten Abfragen, bei denen man Perplexity bittet, für einen tiefgreifende Nachforschungen über GLP-1 anzustellen, kommt der Agent zurück und stellt dem Nutzer klärende Fragen, bei denen der Nutzer mehr Input geben kann. Ich glaube, ChatGPT macht das auch. ChatGPT zwingt Sie ausdrücklich zu einer Antwort. Perplexity zwingt den Benutzer nicht, zu antworten. Ich denke, dass unser Design besser ist, weil man manchmal, wenn man nichts über ein Thema weiß, nicht genug weiß, um überhaupt etwas zu antworten. Ihre Antwort ist also nicht wichtig. Man muss also nicht für den Benutzer gesperrt sein, um zu antworten. Aber das ist zumindest eine Möglichkeit, wie du den Agenten dazu bringen kannst, etwas zu tun, was du willst, oder? Und dann gibt es noch andere Möglichkeiten, wie wir es im Kommentar-Browser machen, zum Beispiel, wenn Sie ihn bitten, etwas zu kaufen, wird er Sie immer noch um eine Bestätigung bitten, bevor er fortfährt. Er wird Sie warnen: Oh, das kostet 100 Dollar, sind Sie sicher, dass Sie das ausgeben wollen? Ihr Gehirn wird also weiterhin aktiv bleiben, während es die Arbeit erledigt. Aber ich gehe noch einen Schritt weiter und betrachte Ihre Frage auf einer eher philosophischen Ebene. Wenn man Agenten vertraut, dann sind sie irgendwann schlauer als man selbst. Es ist so, als ob du jemanden eingestellt hättest, der schlauer ist als du. Und warum müssen Sie sie überhaupt noch im Detail überwachen? Wo setzen Sie also Ihre Gehirnleistung ein?

Aravind:
[28:00] Das ist gar nicht so unähnlich, wie wenn du ein Unternehmen leitest und zwei Leute einstellst und die sind Weltklasse. Und die machen einfach alles. Und selbst wenn du nicht zur Arbeit erscheinst, läuft dein Unternehmen gut. Was tust du dann? Entweder man gründet ein anderes Unternehmen oder ein anderes Geschäft neben dem aktuellen, das einem hilft, das aktuelle Geschäft noch weiter auszubauen, oder man beginnt, innerhalb desselben Unternehmens mehr zu wagen, indem man andere Leute einstellt und versucht, das, was man innerhalb des Unternehmens tun kann, zu erweitern, richtig? Ich denke, so sehe ich das. Wenn man untätig bleibt und nichts tut, ja, dann wird es mit Sicherheit zu einem kognitiven Abbau kommen. Und ich denke, das gilt noch mehr im Zeitalter der KI, wenn KI in der Lage ist, eine Menge Dinge für uns zu tun, und wir das deshalb als selbstverständlich ansehen, und Bill Gates diese Sache mit der Drei-Tage-Arbeitswoche oder Zwei-Tage-Arbeitswoche in einer Welt, in der KI wirklich gut funktioniert, hat. Ich denke, das ist in Ordnung. Übrigens bin ich nicht gegen eine Zukunft, in der die Menschen nur zwei oder drei Tage pro Woche arbeiten und die restlichen vier Tage entspannen.

Aravind:
[29:02] Diese ganze Fünf-Tage-Woche-Sache war, die industrielle Revolution hat es für uns getan. Henry Ford war einer der Hauptgründe für diese Entwicklung. Damals bestand die einzige Möglichkeit zur Maximierung der Produktionseffizienz darin, dass Menschen in die Fabriken kamen und die Arbeit erledigten. Dann fingen Maschinen an, viel mehr Dinge zu tun, und die Menschen begannen, verschiedene Arten von Arbeitsplätzen zu finden, sowie Software und das Internet. All diese Dinge haben dazu geführt, dass wir uns weiterentwickelt haben, um mit all diesen Veränderungen umzugehen.

Aravind:
[29:27] Ich bin mir also sicher, dass wir mehr Wege finden werden, um uns zu beschäftigen. Gleichzeitig bin ich mir sicher, dass es einige Leute geben wird, die sich einfach zurückziehen und anderen Leidenschaften nachgehen, wie Wandern und Fotografieren und, Sie wissen schon, das Erstellen von Inhalten, Podcasting. Es gibt so viele verschiedene Möglichkeiten, sein eigenes Leben zu führen. Und das macht die Welt vielschichtiger. Manche Leute sagen mir, dass San Francisco immer noch eindimensional ist. Du kommst hierher und triffst nur Tech-Bros, die in Cafés über KI reden, und niemand, es fühlt sich an wie, du weißt schon, es fühlt sich toll an. Die Energie ist fantastisch, aber Leute, die in New York oder London leben, gehen in eine Bar und sind wie jemand, der ein Instrument spielt. Du triffst jemanden, der ein Künstler ist. Du triffst jemanden, der Bühnenshows oder Stand-up-Comedy macht, und dann Ingenieure. In New York gibt es viele verschiedene Arten von Menschen, und das zieht viele Leute in diese Stadt. Ich glaube, dass die KI immer besser wird und die Gesellschaft sich dadurch weltweit besser fühlt und nicht nur auf einige wenige Städte beschränkt ist.

Josh/Ejaaz:
[30:34] Also Arvind, die Leute lieben Ratlosigkeit. Als ich einigen meiner Freunde erzählte, dass du kommen würdest, waren sie begeistert. Sie nutzen es die ganze Zeit für Sportergebnisse, für das Wetter, für Glücksspielvorschläge. Und ich finde, die Leute haben diese Affinität zu Ratlosigkeit. Und ich würde gerne von Ihnen wissen, warum. Wenn ich also ein Nutzer bin, wenn ich jemand bin, der diesen Podcast hört, der ChatGPT nutzt, der Gemini nutzt, und mir nicht ganz klar ist, was der Vorteil von Perplexity ist. Können Sie den einzigartigen Vorteil beschreiben, den Sie haben, warum die Leute den Dienst nutzen wollen, und was Sie im Hintergrund tun, um dieses Versprechen tatsächlich zu erfüllen?

Aravind:
[31:03] Erstens haben wir die Marke um Genauigkeit und Wissen herum aufgebaut. Es soll also kein Assistent sein, der im Großen und Ganzen wie, Sie wissen schon, eher ein KI-Chatbot, der mit Ihnen über alles plaudert. Man kann also zu ChatChapD gehen und einfach einen schlechten Tag haben. Kannst du mich motivieren?

Aravind:
[31:23] Dafür ist Perplexity nicht gedacht. Wir versuchen also nicht, ein Produkt zu bauen, das gut für die Suche und die Recherche und das Wissen und die Fakten ist und gut dafür ist, Ihr Chat-Buddy oder ein Begleiter in einem zu sein. Gemini und ChatChapD versuchen, das zu tun. Indem wir uns also auf eine Sache konzentrieren, nämlich Wissen, Fakten und Recherche, und dem Nutzer die Antwort in einer möglichst konsumierbaren Form geben, also mit der höchsten Dichte pro Pixel, was die Informationsbandbreite angeht, leisten wir bessere Arbeit. Und wir sind auch schneller, wenn es darum geht, die gleiche Antwort zu geben. Wir kümmern uns also wirklich darum, was der Nutzer braucht, auch wenn er nicht sehr präzise sein muss, verstehen wir seine Absicht und geben die Antwort schneller und besser. Beim Sportkurs haben wir also viel daran gearbeitet, denn wenn man den Spielstand eines Spiels abfragt, bekommt man die Antwort nicht immer in Form eines langen Textes zurück. Das ist nicht lustig. Du willst diese Widgets. Ihr Gehirn ist es gewohnt, diese Pixel zu konsumieren.

Aravind:
[32:28] Sie wollen keine Live-Updates, keine Aktiengrafiken. Man will nicht manchmal tief in die Einnahmen eines Unternehmens oder die Finanzen eintauchen. Dafür bauen wir eine Menge Dashboards. Man möchte nicht zwei verschiedene Aktien miteinander vergleichen können. Man möchte nicht in der Lage sein, tiefere Einblicke in die vergangenen Ergebnisse oder in die verschiedenen Teams zu erhalten, wie z. B. in der Formel 1, sondern man möchte in der Lage sein, die Live-Updates im Spiel zu verfolgen. Wir haben also viel daran gearbeitet, die Informationen so gut wie möglich zu vermitteln.

Aravind:
[32:56] Informationsbandbreite, wie verbrauchbare Pixel. Und wir haben es immer noch nicht geschafft, wir haben noch keine gute Arbeit beim Tennis geleistet. Ich glaube, wir hinken immer noch hinterher, z.B. beim Fußball. Es gibt also noch viel zu tun, aber wir machen uns zumindest genug Gedanken darüber. Und wir wollen, dass die Leute mit Fragen zu allem und jedem auf der Welt zu uns kommen können. Und das ist die Art und Weise, wie wir darüber nachdenken, die ultimative Antwortmaschine zu bauen. Und wie sind.

Josh/Ejaaz:
[33:21] Ihr macht das? Was passiert da hinter den Kulissen? Wenn ich also eine Anfrage mit Perplexity stelle? Was ist die Magie, die dahinter passiert? Routest du? Wir hatten kürzlich den CEO von OpenRouter zu Gast, der beschrieben hat, wie man Abfragen an verschiedene Modelle weiterleiten kann. Aggregieren Sie die Daten einfach selbst? Scrapen Sie das Web und leiten es an Ihr eigenes Modell weiter? Was passiert, wenn ich die Eingabetaste in diesem Suchfeld drücke?

Aravind:
[33:39] Ja, also jede Anfrage wird klassifiziert. Manchmal ist es also eine Sportabfrage, manchmal eine Wetter- oder Finanzabfrage oder eine normale Abfrage, die keine Widgets benötigt. Jede Abfrage wird also klassifiziert und dann werden je nach Klassifizierer verschiedene UIs, wir nennen es generative UIs, verschiedene UIs pro Abfrage generiert. Und für bestimmte Abfragen, die wirklich genaue Fakten erfordern, möchte man nicht nur Weblinks verwenden. Sie möchten einen Datenanbieter verwenden, der Ihnen einen Echtzeit-Daten-Dump liefert. Das ist es, was Sie für das Finanzwesen brauchen. Das brauchen Sie für den Sport. Genau das brauchen Sie für das Wetter. Also machen wir das. Für manche Abfragen braucht man Händler oder ein Hotelinventar oder solche Dinge. So machen wir das für Reisen und Handel. Für einige Abfragen braucht man Datenanbieter für lokale Restaurants. Das tun wir zum Beispiel mit Yelp. Und für andere Abfragen braucht man einfach das normale Web, wo man eine Reihe von Links zieht und den Inhalt zusammenfasst. Das machen wir also für die meisten Suchanfragen. Das ist ein Long Tail.

Aravind:
[34:40] Und Sie wollen entscheiden, ob Sie es in Markdown oder in Tabellen oder nur in einem Absatz oder in zwei Absätzen formatieren wollen. Und wenn die Anfrage per Telefon oder im Internet kam, dann sollte man versuchen, sie ein bisschen prägnanter zu formulieren, weil die Leute am Telefon nicht so viel Text lesen wollen.

Aravind:
[34:57] Und dann sollten Sie auch entscheiden, ob Sie bei bestimmten Anfragen, die etwas mehrdeutig sind, länger nachdenken wollen. Nehmen wir an, Sie wollen fragen, wie groß der Altersunterschied zwischen den fünf größten Milliardären und ihren Frauen ist, oder so ähnlich, richtig? Sie wollen wissen: "Wer sind die fünf größten Milliardäre? So-und-so. Und wer sind ihre Frauen? Wer sind ihre Ehefrauen? So-und-so. Wie alt sind diese 10 Personen, ihre Geburtsdaten? Und dann wollen Sie die Unterschiede berechnen. Sie müssen also einige Überlegungen anstellen und dann die Antwort in Form einer Tabelle geben. Das Modell muss sich also automatisch an die Abfrage anpassen und festlegen, wie viel Schlussfolgerung und wie viele Schritte der Schlussfolgerung angewendet werden sollen. Das alles basiert also auf den Entscheidungen des Klassifizierers. Stellen Sie sich also vor, dass wir diesen gigantischen, komplizierten Informationsrouter für die Neugierde und den Wissensbedarf der Menschheit bauen. Das ist es, was wir im Grunde tun. Und wenn wir dies in großem Maßstab für alle Sprachen, alle Arten von Abfragen, alle Arten von Branchen, alle Arten von grundlegenden alltäglichen Aufgaben tun können, dann ist das von enormem Wert. Dabei spielt es nicht einmal eine Rolle, ob wir das Modell besitzen oder nicht. Allein der Wert des Routers in Bezug auf das Wissen, welche Modelle für welche Abfragen zu verwenden sind und welche Art von Benutzeroberfläche zu verwenden ist und wie viel Rechenleistung pro Abfrage anzuwenden ist, um die Mehrheit der Antworten richtig zu erhalten und dies mit angenehmer Latenz und Benutzeroberfläche zu tun, ist im Grunde unser Ziel.

Josh/Ejaaz:
[36:16] Okay, Sie haben jetzt also dieses Toolset. Ihr nehmt die Komplexität und fasst sie in einem Datensatz zusammen. Und es scheint, als ob Sie bei einigen Dingen wirklich außergewöhnlich sind. Wir haben Sport erwähnt. Ich weiß, dass viele Leute es auch benutzen. Viele Leute haben auf Twitter darum gebettelt, dass Bloomberg in Bezug auf Finanzen durch eine Perplexity ersetzt wird, weil es eine Menge Charts erstellen kann. Und es scheint, dass Sie in einigen dieser Kategorien wirklich stark sind.

Josh/Ejaaz:
[36:36] Wo Sie viel Zeit und Mühe investieren, ist der Browser selbst mit Comet. Und ich möchte Comet für die Leute vorstellen, die es nicht verstehen. Es ist Ihr neuer KI-Browser. Ich würde mich freuen, wenn Sie ihn mit uns teilen würden, denn es scheint, dass Sie eine Zeit lang ratlos waren. Sie haben sozusagen auf gemietetem Land gelebt. Um Perplexity zu nutzen, müsste ich normalerweise zu Chrome oder Safari wechseln oder einen anderen Browser verwenden, der nicht von euch stammt. Aber was Sie jetzt machen, ist, dass Sie den kompletten Stack erstellen, richtig? Sie erstellen den Browser von Ihrem Desktop aus. Sie führen die Anwendung aus, Sie kontrollieren den gesamten Stack. Können Sie uns kurz erklären, was Comet ist und wie es funktioniert? Aravind: Ja.

Aravind:
[37:06] Also Comet ist, wir nennen es im Grunde Browser die Geschwindigkeit des Denkens. Wir haben also alle eine Menge Gedanken, während wir im Browser sind, und wir kommen nicht dazu, sie alle zu beenden, weil jede Aufgabe, die wir im Kopf haben, viel Zeit in Anspruch nimmt. Comet soll also Perplexity und den Browser auf eine sehr native Art und Weise vereinen, indem Perplexity nicht mehr nur Antworten gibt, sondern auch Aktionen für Sie ausführt. Perplexity zieht nicht mehr nur den Kontext aus dem Web, sondern den gesamten Kontext, den Browserverlauf, den Google-Kalender, Google Mail, andere Tabs, die Sie vielleicht einmal geöffnet hatten, Slack und andere Tools für den Arbeitsbereich. So kann es alle relevanten persönlichen Kontexte und den Webkontext abrufen und die Agentur dazu bringen, Aktionen für Sie durchzuführen, die überall in der Suchleiste, in der Seitenleiste und auf der Seite mit den neuen Tabs verfügbar sind. Egal, auf welcher Webseite Sie sich befinden, sie hilft Ihnen kontextbezogen, richtig? Das ist das Allerwichtigste. Ihre Arbeit beginnt mit etwas Kontext. Sie befinden sich in einem Google-Dokument und bitten um Hilfe bei der Bearbeitung des Dokuments. Sie arbeiten an einer Google-Tabelle und bitten um Hilfe bei der Suche nach Informationen aus dem Internet, die Ihnen beim Ausfüllen der Tabelle helfen. Sie arbeiten an einer Aufgabe und versuchen, relevante Zusammenhänge aus der Vergangenheit zu finden, die Sie vielleicht in E-Mails mit Ihren Kollegen ausgetauscht haben, um etwas zu entwerfen.

Aravind:
[38:28] Sie sind gerade dabei, jemanden zu interviewen, und Sie wollen alle Hintergrundmaterialien für diese Person zusammenstellen. Sie wollen einfach nur sagen: "Hey, bereite mich auf meinen morgigen Tag vor", und das wird es für Sie als Teil der Aufforderung tun. Wir wollen also, dass es viel intuitiver ist, viel mehr persönliche Suchen, viel mehr persönlichen Kontext, und eigentlich nur die alltäglichen Aspekte des Umgangs mit langweiligen Websites wegnehmen. Das ist es also, was Comet leisten sollte, und es hat einen wirklich großartigen Start hingelegt. Und es ist genau an dem Punkt, an dem es fast am Ziel ist, aber noch nicht ganz am Ziel. Und ich denke, das ist der Punkt, an dem man sein möchte, um auf der Welle der immer besser werdenden Modelle zu reiten und dann den Kreis zur vollen Zuverlässigkeit zu schließen.

Josh/Ejaaz:
[39:09] Ja, ich möchte über den Formfaktor und die Designentscheidungen für Kama sprechen, weil ich viel über Intelligenz nachdenke und darüber, wie sie sich im Laufe der Zeit verbessern wird und, was noch wichtiger ist, wie wir uns mit ihr beschäftigen werden, während wir diese Wachstumskurve erklimmen. Und wenn ich über die Schlussfolgerung nachdenke, zu der ich gekommen bin, scheint sie ein wenig anders zu sein als die des Browsers. Wenn ich über einen Browser nachdenke, und Sie haben das vorhin erwähnt, dann gibt es zwei Verwendungszwecke für ihn, richtig? Es gibt zwei Bereiche. Zum einen die Produktivität und zum anderen die Freizeit. Und Produktivität ist sozusagen die Arbeit, die man macht. Ich bereite den Terminkalender für die Episoden vor. Ich kaufe Waschmittel ein oder buche Reisen. Und in der Freizeit schaue ich mir YouTube-Videos an. Ich schaue Netflix. Ich scrolle durch meine X-Timeline. Das liebe ich. Das fühlt sich für mich sehr einzigartig menschlich an. Und das möchte ich irgendwie beibehalten. Das ist für mich etwas Besonderes. Ich stelle mir also vor, dass das Produktivitätseimerchen durch die Agenten irgendwie abstrahiert wird. Vor ein paar Wochen erschien mir das noch ein wenig weit hergeholt. Aber dann habe ich den Agenten von OpenAI ausprobiert und dachte: Moment mal, das ist doch irgendwie cool. Er beseitigt ganz offensichtlich alle Schnittstellen, die Komplexität des Browsers, und gibt mir einfach die Antwort. Er versteht meinen Präferenzstapel. Er weiß sozusagen alles. Ich bin neugierig, welche Design-Entscheidung Sie getroffen haben, um den Formfaktor des Browsers beizubehalten und nicht direkt zum Agenten-Workflow überzugehen, der alle Schnittstellen und die Werbung wegnimmt und Ihnen dann einfach die Antwort liefert, nach der Sie suchen.

Aravind:
[40:18] Die Arbeit beginnt also dort, wo Sie sind, und nicht bei einem leeren Chatbot. Wenn Sie zum Beispiel gerade dabei sind, eine Notiz für ein Memo zu verfassen, und Sie möchten den Kontext aus dem ziehen, was Sie bereits mit Ihren Kollegen auf Slack besprochen haben.

Aravind:
[40:38] Sie wollen nicht einmal das Memo kopieren und fragen: Hey, kannst du den ganzen Kontext aus der Vergangenheit ziehen, den ich vielleicht mit David und Yas besprochen habe oder so etwas in der Art, richtig? Sie wollen buchstäblich den Assistenten direkt neben sich haben und einfach sagen: "Hey, kann ich den ganzen Kontext aus der Vergangenheit herausholen?

Aravind:
[40:52] Kannst du den relevanten Kontext heranziehen, den ich hier vielleicht übersehen habe? Und Sie müssen nicht einmal sagen, dass Sie es von der Slack-Maschine holen sollen. Es wird einfach automatisch wissen, was zu holen ist und es für Sie direkt an Ort und Stelle bearbeiten. Die anderen Vorteile sind, dass dieses ständige Wechseln der Registerkarten und das Kopieren und Einfügen von Kontext hier und da, und dann die Ausgaben von einem Ort nehmen und sie an einem anderen Ort wieder einfügen, all diese Dinge für Sie gespeichert, wenn Sie es einfach nativ eingebettet haben, wo immer Sie sind. Und was die architektonischen Entscheidungen angeht, so ist der ChatGPT-Agent viel langsamer als der Comet-Browser. Es wurden Vergleiche angestellt, und was bei ChatGPT agent 11 Minuten dauert, dauert bei Comet wahrscheinlich weniger als eine Minute, weil es viele Vorteile hat, Informationen auf der Client-Seite zu analysieren und die Server-Seite nur für die Grenzwertberechnungen zu nutzen, ohne eine komplette Server-Sitzung des Client-Browsers zu erstellen und dann alle Berechnungen dort durchzuführen. Zwischen dem und dem Ort, an dem die Modelle tatsächlich gehostet werden, und der Rücksendung des Ergebnisses an Sie, an den Client, gibt es wieder einen weiteren Round Trip. Das ist einfach sehr langsam und unzuverlässig und bleibt manchmal hängen und wird wiederholt, ohne dass man weiß, was passiert, im Vergleich zu einer vollständigen Kontrolle auf dem Client, die viel sicherer ist. Passwörter müssen nicht übermittelt werden. Alles ist lokal gespeichert. Alle Ihre Inhalte sind lokal. Sie müssen sich niemals Gedanken über eine serverseitige Sitzung machen, egal was Sie tun.

Aravind:
[42:17] Und alles ist viel schneller, weil es nur eine einseitige, zweiseitige Kommunikation zwischen den Informationen auf dem Client und den Modellen auf dem Server gibt, aber das war's dann auch schon. Man könnte zum Beispiel Hilfe bei der Ex oder bei Netflix oder YouTube in Anspruch nehmen, oder? Ich bin z.B. auf YouTube und will nur sagen, hey, da gibt es diesen Podcast, den die Jungs mit Arvind gemacht haben, und ich will genau das hören, was Arvind über ChatGPT agent gesagt hat. Kannst du den Clip, in dem er nur darüber spricht, herausschneiden und als separates Video auf YouTube hochladen und mir helfen, es zu sehen? Wir sind noch nicht in der Lage, all diese Dinge zu tun, aber wir sind kurz davor, dies zu tun. Man kann es genau vom richtigen Zeitstempel abrufen und muss nicht erst Transkription anzeigen, Befehl F, Chat-GPT-Agent, und dann wieder so etwas wie den Wiedergabeschieberegler verschieben, um festzustellen, wo genau ich angefangen habe zu sprechen, all das ist nicht nötig. Es ist einfach viel besser. Es kann einem also auch bei persönlichen Aufgaben helfen, wie zum Beispiel bei einer Menge Arbeit.

David:
[43:21] Wie, wie manchmal

Aravind:
[43:21] Du schaust dir gerade YouTube an und du kannst, du willst vielleicht die ganze Abschrift herausziehen und sie für deine nächste Sache später verwenden, oder sie jemandem schnell schicken. oder während du YouTube schaust, willst du vielleicht nebenbei eine Reservierung für ein Abendessen buchen. Alles kann einfach sein, und man möchte vielleicht nur sehen, ob der Agent Fortschritte macht, und man kann einfach seine Inhalte konsumieren. Alles ist einfach viel nahtloser und in einer Umgebung integriert. Es ist das langlebigste Produkt, das die Menschheit bisher gebaut hat. Und in den letzten 20 oder fast 30 Jahren haben wir Browser benutzt. Ja, er hat sich ein wenig verändert. Firefox hat das Konzept der Tabs erfunden. Google hat das Konzept der Tabs als separate Prozesse eingeführt. Aber abgesehen davon hat sich nicht viel geändert. Zum ersten Mal sind wir also in der Lage, Ihnen ein vertrautes Frontend und eine vertraute Benutzeroberfläche zu bieten, die Ihnen aber viel mehr Handlungsspielraum lässt. Das ist es, wofür wir uns entschieden haben. Und das ist auch gut so. Wenn die Verwaltung irgendwann so zuverlässig ist, dass man den Browser gar nicht mehr öffnen muss, sondern nur noch in die neue Registerkarte eintippen muss und alles für einen erledigt. Das ist völlig in Ordnung. Aber wir stellen uns eine Zukunft vor, in der die Menschen immer noch arbeiten werden, nur mit viel mehr KI-Hilfe, aber sie werden immer noch die volle Entscheidungsgewalt behalten. Ich denke, das ist die Art von Zukunft, an die wir glauben. Und ich denke, dass die Einbettung der KI direkt in den Browser ein besserer Ansatz ist.

Josh/Ejaaz:
[44:42] Ja, ich glaube, der Browser ist 35 Jahre alt, 1990. Wir benutzen ihn also schon sehr lange. Er ist eindeutig sehr hartnäckig. Und als Sie die Vorteile der Verwendung von Comet Browser jetzt erwähnten, stimme ich zu. Wir haben tatsächlich gnädigerweise Zugang dazu bekommen. Wir konnten ihn testen und ausprobieren. Und es geht so viel schneller als mit der Agentenfunktion, weil es alle Integrationen eingebaut hat. Es hatte meine Google-Konten. Es hatte alle meine Login-Integrationen. Aber meine Frage an Sie ist, was passiert, wenn sie schließlich schneller werden, wenn die Agenten die Zeit und die Latenzzeit sozusagen zusammenbrechen lassen, dass man keine virtuelle Maschine mehr hochfahren muss? Es dauert nicht mehr so lange. Und es ist wirklich wie ein browserloses Erlebnis. Ich weiß, dass die Leute an Hardware-Geräten arbeiten, um das in die Realität umzusetzen und einen Großteil der Schnittstelle zu entfernen. Sehen Sie also, dass der Browser weiterhin der Formfaktor sein wird, wenn wir uns weiterentwickeln? Oder sehen Sie, dass sich Kama irgendwann zu etwas Abstrakterem entwickelt als nur zu einer Box mit einem kleinen Tab oben drauf?

Aravind:
[45:32] Hören Sie, ich bin nicht besonders scharf darauf, dass der Browser das Frontend für den Informationskonsum bleibt. Ich glaube nicht, dass das notwendig ist, damit der Browser relevant ist. Das ist der springende Punkt. Die Zeit, die der Agent benötigt, um tatsächlich die Arbeit für Sie zu erledigen, ist kein Engpass, weil die Modelle intelligenter werden. Es ist lediglich eine architektonische Entscheidung, serverseitige Sitzungen für jede Ihrer Browser-Registerkarten oder Dienste von Drittanbietern einzurichten. Die Modelle werden intelligenter und zuverlässiger, was die Steuerung dieser Websites angeht. Aber im Grunde genommen wird nur eine Browsersitzung auf der Serverseite aufgesetzt. Das ist alles, was passiert. Und man braucht immer noch die Infrastruktur eines Browsers, sei es auf dem Client oder dem Server, sei es headless oder mit dem Frontend.

Aravind:
[46:27] Man braucht immer noch die ganze Infrastruktur, um das zu tun, richtig? Wenn Sie z.B. bei Comet fragen: "Kaufen Sie das für mich bei DoorDash", dann öffnen wir nicht DoorDash und lassen den Agenten das auf Pixeln rendern und lassen den Agenten auf Dinge klicken. Das wird auf eine viel effizientere Art und Weise gemacht, indem wir das JavaScript direkt konsumieren und dort Aktionen ausführen. Wir geben Ihnen das Frontend in Form eines Fortschrittsbalkens, um zu sehen, was vor sich geht. Das ist mehr für die Transparenz und die Zuverlässigkeit der Benutzer gedacht, aber der Agent muss es nicht auf die Art und Weise konsumieren, wie Sie es konsumieren. Es handelt sich also nicht wirklich um eine Server- oder Client-Entscheidung. Es geht eher darum, wo man eigentlich anfängt? Wo sind Sie bereits die meiste Zeit unterwegs? Wirst du dich hauptsächlich mit dem Chatbot beschäftigen? Werden Sie also die meiste Zeit damit verbringen? In diesem Fall wäre es sinnvoll, den Browser zurück in die Cloud zu verlagern und Sie im Chat zu behalten. Aber so sind wir doch nicht, oder? Wir sind tatsächlich die meiste Zeit im Browser. Wir öffnen den Chatbot in einem anderen Tab oder Google in einem anderen Tab oder Perplexity in einem anderen Tab, aber wir sind die meiste Zeit im Browser. Wir sind wie du und ich jetzt auf Riverside. Aber Riverside, das nehme ich gerade auf Comet auf. Früher hat es nur mit Chrome funktioniert, aber jetzt funktioniert es. Okay. Ja, wir haben den Fehler behoben.

Aravind:
[47:42] Schauen Sie, hier ist die Sache. Ich bin auf Riverside. Wir unterhalten uns gerade. Ich möchte vielleicht, dass Comet uns zuhört, während wir reden, und es einfach in unser Gespräch einschleift. Und, weißt du, es kann auch kommen und einen Podcast mit uns machen oder unsere Fragen beantworten. Man verpasst all diese Erfahrungen, wenn man die ganze Zeit in einem einzigen Chatbot-Fenster festsitzt, das sich leer anfühlt und in dem es keinen neuen Kontext gibt. Im Browser hingegen öffnet man einfach Twitter oder einen Link, man geht zu Twitter und scrollt durch ein paar Feeds, und schon ist die Welt chaotisch und interessant. Und das alles verpasst man, wenn man nur im Chatbot bleibt und immer darüber nachdenken muss, welche Eingabeaufforderung man dem Chatbot hinzufügen möchte. Ich glaube, deshalb halten wir den Browser für interessanter, weil der Kontext immer wieder auftaucht. Der Neugierde sind also keine Grenzen gesetzt, wenn es darum geht, was man damit machen kann.

David:
[48:35] Was ich denke, was ich hier sehe, ist, dass es diese Vorstellung gibt, dass KI einfach kommen wird und unser aller Leben auf all diese verschiedenen Arten verbessern wird. Und es wird über diese Assistenten kommen. Und was ich mit dem Browser sehe, mit diesem Browsermodell, dem allgemeinen Modell, ist, dass man mit Perplexity eine Wette eingeht, dass der Browser-Formfaktor der nützlichste Assistenten-Formfaktor ist, um die ungezügelte Intelligenz dieser LLM-Modelle von OpenAI und all diesen Dingen zu nutzen. Und Sie gehen die Wette ein, dass wir den Assistenten tatsächlich nur im Browser machen werden. Und es gibt andere, vielleicht Konkurrenten da draußen, die man vielleicht nicht zuerst...

Aravind:
[49:13] Der Assistent muss einen Browser haben, egal ob er die Vorderseite des Browsers beibehält oder nicht. Richtig. Und dann denke ich, dass man ihn auf dem Handy nicht wirklich als Benutzer im Web verwenden wird. Auf dem Handy werden Sie keine Tabs im mobilen Browser öffnen. Sie werden einfach die einzelnen Anwendungen aufrufen. Sie werden nicht zu x.com in meinem mobilen Browser gehen. Sie werden X als App öffnen. Auf dem Handy nutzt der Assistent die Vorteile der Browserfunktionalität, indem er die Apps von Drittanbietern aufruft, was nicht möglich ist, da das Betriebssystem den Aufruf von Drittanbieter-Apps einschränkt. Ich kann DoorDash nicht öffnen. Ich kann nicht Uber, Amazon oder Twitter oder LinkedIn öffnen und dort Dinge für Sie erledigen. Das Betriebssystem lässt mich das nicht als andere App tun. Siri kann das möglicherweise tun, aber das liegt daran, dass es nicht einmal eine App ist. Es ist ein Bestandteil des Betriebssystems. Wenn ich also den Browser als explizite, eigenständige App habe und mir dabei helfe, entweder eine serverseitige Cloud-Sitzung davon laufen zu lassen oder es auf dem Client als Hintergrundprozess zu tun, hat das eine Menge Flexibilität in Bezug darauf, was ich den Assistenten über das Beantworten von Fragen hinaus alles tun lassen kann.

David:
[50:25] Und ich nehme an, es wird eine Handvoll Produkte geben, die so sind, wo sie versuchen, einen nützlichen Formfaktor für KI um Ihre Person herum zu machen. Und eines davon ist ein Browser, denn wie Sie schon sagten, verbringen wir so viel Zeit in einem Browser. Eine andere ist, wissen Sie, vielleicht denken die Leute nicht wirklich intuitiv daran, dass es sich um einen Konkurrenten handelt, aber ich sehe es in der gleichen Kategorie wie diese Anhänger, diese physischen Geräte. Richtig. Es ist nur ein weiterer Formfaktor, der Sie mit Hilfe von KI unterstützen soll. Und das hier ist kein Browser, sondern ein Gerät, das Sie im echten Leben begleitet. Sie sind weg von Ihrem Desktop, Sie sind weg von Ihrem Telefon, Ihr Telefon ist in Ihrer Tasche, aber es ist ein anderer Formfaktor von etwas, das Sie unterstützen und Ihr Leben besser machen soll. Und sehen Sie die Kategorie, in der Sie bauen, auch so? Sie versuchen einfach, den bestmöglichen Formfaktor zu schaffen, um ein nützliches KI-Assistenz-Tool zu entwickeln?

Aravind:
[51:15] Ja, definitiv. Der Speicher und der Kontext, den man aus dem Browser ziehen kann, ist meiner Meinung nach unübertroffen. Ich denke, die Leute glauben an das Pendant und an das, was auch immer es ist.

David:
[51:25] Dinge, die man in den Browser einbauen kann.

Aravind:
[51:26] An, die Kette, Halskette.

David:
[51:29] Weitgehend unbewiesen.

Aravind:
[51:30] Ja, Glas, wie alles aufzeichnen, mit dem man spricht. Und im Grunde ist es eine weniger effiziente Art, Dinge zu speichern. Und es wurden auch viel mehr technische Ressourcen in die Entwicklung von Browsern gesteckt, die keine Batterie und keinen Speicher verbrauchen, sowie in einen gut verstandenen Code zur Optimierung. Die Chips sind viel leistungsfähiger. Das ist es also, was dem Pendant fehlt. Er muss ständig die Bluetooth-Verbindung des Telefons belasten und ständig Dinge auf den Server hochladen, die Internetverbindung des Telefons nutzen. Es ist also nicht dafür gedacht, und vielleicht muss man auch gar nicht so viel aufnehmen. Es fühlt sich wie ein Overkill an. Andererseits haben Sie Zugriff auf jede Website, die Sie besucht haben, auf Ihre E-Mails und Ihren Kalender, auf alle Meetings, die Sie besucht haben.

Aravind:
[52:24] Ihre Flüge, Ihre Essenspläne. Ich weiß also schon so viel, dass ich Ihnen nur durch den Browser-Kontext helfen kann. Und es kommt mir auch weniger unheimlich vor, wenn ich ständig um dieses Gerät herumgehen und Leute ohne ihre Erlaubnis aufzeichnen muss, während der Browser nur Ihren persönlichen Kontext abruft, übrigens nur mit Ihrer eigenen Erlaubnis. Und man kann sich dafür entscheiden, Dinge inkognito zu tun. Das ist ein weiterer Vorteil, den der Browser meiner Meinung nach hat. Und wenn Sie möchten, dass Ihr Telefon ein bestimmtes Treffen aufzeichnet, können Sie das jederzeit tun. Das ist ziemlich einfach. Es gibt Recorder-Apps. Es gibt Apps, die eine Aufnahmetaste haben und dann den gesamten Kontext protokollieren und ihn auf dem lokalen Laufwerk der App ablegen. Es kann lokal auf dem Client gespeichert werden und muss nicht auf den Server übertragen werden.

Aravind:
[53:09] Der Kontext kann von dort abgerufen werden. Der Browser kann all diese Dinge tun. Es ist ziemlich einfach, all diese Dinge zu tun. Das ist der Grund, warum ich kein großer Anhänger der Hardware bin. Ich denke, dass Hardware sehr interessant ist, wenn man auf die Ebene der AirPods geht. Wenn ich z. B. einen AirPod habe, mit dem ich im Gehen sprechen kann und der Kameras hat und mit dem ich tatsächlich Fragen zu Restaurants und Speisekarten stellen kann. Das gibt mir eine völlig neue Möglichkeit, online einzukaufen. Es gibt viele Vorteile, die man mit dem Glas oder dem AirPod hat, denn das Glas kann einem helfen, Dinge zu rendern. Mit dem AirPod kann man einfach sehen und sprechen. Ich glaube also an diese Dinge, aber ich bin kein großer Anhänger von Geräten, die alles aufzeichnen müssen, worüber man spricht oder spricht, und die dann all das als Kontext nehmen.

Aravind:
[53:54] und es in einen Chat auf dem Server schieben. Ich glaube nicht, dass das nötig ist.

Josh/Ejaaz:
[53:57] Das ist lustig. Josh, wir haben schon früher über verschiedene Formfaktoren gesprochen, und er hat die AirPods mit einer Kamera, die alles sehen und wahrnehmen kann, irgendwie vermutet. Ich meine, Perplexity ist das erste große KI-Unternehmen, das einen KI-Browser herausgebracht hat, oder? Und es ist kein Geheimnis mehr, dass OpenAI und Google neue oder verbesserte Browser auf den Markt bringen werden. Und Sie haben in einem früheren Podcast, ich glaube, es war mit Y Combinator, erwähnt, dass der Grund, warum Google keine separate Suchmaschine entwickelt und KI nicht direkt in seine Suchmaschine integriert hat, darin liegt, dass sie nicht auf die gleiche Weise funktioniert oder arbeitet. Und meine Frage an Sie ist, wenn OpenAI morgen einen Browser herausbringt, was glauben Sie, ist der Hauptvorteil, den Perplexity Comet gegenüber allen anderen hat? Ist es diese Art von natürlichen, intuitiven menschlichen Abläufen, die Sie beschreiben? Ist das der Bereich, in dem Sie am besten spielen werden? Oder sind es diese agenturischen Ströme? Können Sie uns helfen zu verstehen, wie das aussieht?

Aravind:
[55:04] Ich meine, ich denke, sie werden an einem Browser arbeiten. das wurde bereits in der Presse kommuniziert. Was wäre also der Modus? Ich denke, der Modus wird sich offensichtlich darum drehen, ein besseres Produkt zu haben, schneller zu werden, neue Dinge zu liefern, die nicht nur das sind, was wir bereits geliefert haben, sondern Dinge, die mit langlaufenden Prozessen zu tun haben, so etwas wie das Cloud-Code-Äquivalent für alltägliche Browsing-Aufgaben. Manche Leute sehen den Browser als IDE für Ihr Leben an. Und dann könnte der Coding Agent das sein, was im Grunde genommen noch fehlt. Im Moment haben wir synchrone Agenten, die Dinge in Echtzeit für uns erledigen, aber asynchrone Agenten erledigen Dinge im Hintergrund oder brauchen viel länger, können aber schwierigere Aufgaben übernehmen, die zusammengefügt werden müssen, viel längeres Kontextmanagement, zustandsorientierter Speicher, all das fehlt noch. Also müssen wir das aufbauen.

Aravind:
[55:59] Sie werden auch an all dem arbeiten wollen. Und im Gegensatz zu einem Chatbot, bei dem man einfach nur Features ausliefert, ist ein Browser ein massives Engagement für mehrere Plattformen und ständige Upgrades und tonnenweise Fehlerkorrekturen, da er mit so vielen verschiedenen Versionen von Betriebssystemen umgehen muss, und zwar sowohl auf dem Handy als auch auf dem Desktop. Und eine Menge architektonischer Entscheidungen zwischen dem, was auf dem Client und dem Server steht, Sicherheit, Datenschutzgarantien, Unternehmensversionen für die sichere Nutzung am Arbeitsplatz, viele Fehler im Zusammenhang mit der Handhabung von Kontexten und Fehlern, die ständige Auseinandersetzung mit neuen Modellen.

Aravind:
[56:39] Wir haben die Möglichkeit, mehrere Modelle zu verwenden, nicht nur eines, so dass die agenturischen Fähigkeiten auf verschiedenen Modellen immer, Sie wissen schon, nie gleich sind. Wir haben also eine Menge Vorteile, wenn wir ein extrem produktorientiertes Unternehmen sind, im Gegensatz zu einem Modellunternehmen, das Rechencluster aufbaut und Stargate und Sora Videogenerierung, Chatbot-Begleitung. Wie Bilderzeugung, Suche. Es gibt etwa 20, 30 verschiedene Projekte, und Browser ist eines davon. Für uns ist das alles. Also setzen wir alles darauf. Und wenn wir ein winziges Startup sind, das nur sehr wenig Geld hat, werden wir natürlich trotzdem verlieren. Aber zum Glück sind wir das nicht. Wir haben eine vernünftige Verteilung und wir haben eine Menge Finanzmittel. Wir haben also viele großartige Talente hier. Ich denke also, dass es eine ganz natürliche Wette ist, die wir eingehen, selbst wenn ein etabliertes Unternehmen wie OpenAI an derselben Sache arbeiten will. Das bestätigt unsere These nur noch mehr. Und wir setzen auch darauf, dass die Open-Source-Modelle die Fähigkeiten der Frontier-Modelle einholen werden und wir in der Lage sein werden, die geschlossenen Modelle für alles, was wir heute tun, abzulösen. Und wir werden die geschlossenen Modelle immer noch für Dinge verwenden, die wir heute nicht tun können, wie z. B. für neue, innovative Dinge.

Josh/Ejaaz:
[57:54] Wie ich bereits sagte, wart ihr die ersten, die einen KI-Browser oder einen großen KI-Browser auf den Markt gebracht haben. Wenn ihr über zukünftige Formfaktoren nachdenkt, wie ihr erwähnt habt, seid ihr nicht wirklich ein Fan von Hardware-Geräten, wenn ihr euren Browser in Zukunft erweitern würdet, was würdet ihr als nächstes bauen?

Aravind:
[58:13] Ja, ich habe das schon mal gesagt, ich denke, der einzige nächste Schritt nach dem Browser ist das Betriebssystem, das ist die letzte Grenze, denn der einzige Grund, warum man überhaupt einen Browser baut, um eine Menge der Agenten zu bedienen, ist, dass man iOS oder Android nicht kontrollieren kann. Nein, man kann es forken und Android zu dem machen, was man will, aber man kann wirklich keinen Telefonhersteller dazu bringen, seine Version von Android zu liefern, ohne die Genehmigung von Google dafür zu bekommen. Und wenn Google nicht die Standard-Suchmaschine ist, werden sie Ihnen nicht erlauben, eine Android-Version mit dem Play Store und den wichtigsten Google-Anwendungen wie Google Maps, YouTube, Gmail, Kalender und so weiter anzubieten. Und wenn sie ihre Apps nicht anbieten und anderen erlauben, ihre Apps auf ihrer Android-Version anzubieten, hat kein Telefonhersteller einen Anreiz, diese Telefone auf irgendeinem Markt zu verkaufen. Man muss also im Grunde eine Super-App entwickeln, die jede andere App aufrufen kann, so dass man den App Store gar nicht braucht. Aber das ist der Grund, warum man den Browser braucht, weil der Browser im Wesentlichen.

Aravind:
[59:20] Wenn er erst einmal zu einer App geworden ist und Uber anrufen und Sachen bei Amazon kaufen kann und generative UIs alle so schnell und flink sind und man nicht das Gefühl hat, dass man die Apps vermisst, Man braucht immer noch Dinge wie X und Instagram oder Whatsapp, um Leuten Nachrichten zu schicken. Es ist sehr schwer, das Fehlen von Apps zu umgehen. Ich glaube, das ist eine viel größere Vision als die Auslieferung des Browsers, bei der man Social-Media-Unternehmen und andere Leute davon überzeugen muss, den Play Store zu ignorieren und Apps zusammen mit einer neuen Android-Version auszuliefern und dann einen großen Telefonhersteller wie Samsung oder Motorola oder einen der größten OEMs davon zu überzeugen, dieses Telefon auf den Markt zu bringen. Das ist das ultimative Endspiel. Und ich glaube nicht, dass wir einen Abschluss haben, um daran zu arbeiten.

Aravind:
[1:00:08] Der beste Schritt, um dorthin zu gelangen und das Recht zu haben, es zu versuchen, ist die Auslieferung eines wirklich erstaunlichen mobilen Browsers und eine große Verbreitung und eine wirkliche Verbesserung der Zuverlässigkeit und Latenz des Produkts, so dass die Leute das Gefühl haben, dass der Browser die einzige App ist und sich wie ein eigenes Betriebssystem anfühlt. Und sie sind bereit, ein neues Telefon auszuprobieren, das eine neue Version von Android enthält. Und ich denke, wenn dieser letzte Schritt vollzogen ist, wird das meiner Meinung nach das wahre Ende des Google-Monopols sein, denn dann können sie hier nichts mehr kontrollieren. Auf Android z.B. kontrollieren sie die Standardsuche und 68% ihrer Einnahmen bestehen aus mobiler Werbung.

Aravind:
[1:00:54] Wenn ich also die Google-Suche als Standardeinstellung entferne und Sie einfach einen Assistenten für all Ihre Suchbedürfnisse verwenden lasse, können Sie im Web und in den Informationen navigieren, alles auf eine nahtlose Weise.

Aravind:
[1:01:05] Der Großteil der Einnahmen aus Suchanzeigen geht dadurch zurück. Man muss also Marktanteile gewinnen, z. B. durch die Verteilung auf den Telefonen, und dazu braucht man einen großen Telefonhersteller wie Samsung, der einen unterstützt. Das ist also im Grunde das Endspiel. Und man muss auch ein gutes Geschäftsmodell rund um die Agenten und die Abonnementeinnahmen für Leute aufbauen, die das Internet und die Dienste über diesen neuen Formfaktor nutzen wollen. Die Welt muss sich also ziemlich stark verändern, damit diese Dinge passieren können, aber wir arbeiten nicht an Perplexity als ein kurzfristiges Projekt. Es wird ein Jahrzehnt dauern, um all das zu verwirklichen, und es wird nur ein kleiner Schritt auf dem Weg sein. Und Comet ist der erste Schritt dorthin.

David:
[1:01:49] Ich denke, wenn es eine große Erkenntnis gibt, die ich aus dieser Episode mitgenommen habe, dann ist es die Vorstellung, die Begründung, warum eine KI-native iOS-, OS-Software zuerst KI sein muss, sein muss, sein muss. Das ist das, worauf wir letztendlich hinauswollen.

Aravind:
[1:02:03] Man könnte auch in Betracht ziehen, so etwas wie Windows zu bauen, oder nicht genau Windows, aber einen Konkurrenten zu Windows oder Mac OS. Aber auch hier wird man mit den gleichen Problemen konfrontiert werden. Microsoft möchte seine Anwendungen vielleicht nicht für Ihr Betriebssystem bereitstellen, weil sie einfach keinen Rivalen ermutigen wollen. Aus diesem Grund sind alle Microsoft-Anwendungen, wie die Office 365-Anwendungen, unter Linux schlecht. Und das ist einer der Gründe, warum sich Linux nicht durchsetzen konnte.

David:
[1:02:30] Das wirft die Frage auf, ob wir, wenn das Endspiel ein natives KI-Betriebssystem ist, was wahrscheinlicher ist, dass Apple endlich die Kurve kriegt und ios in ein natives KI-Betriebssystem umwandelt, Microsoft Windows hat und herausfindet, wie man Windows zu einem nativen KI-Betriebssystem macht, oder ob vielleicht Chat Gbt und Open KI versuchen, in dieses Spiel einzusteigen, oder ein jüngeres Startup wie Perplexity, sind das die Spieler des Spiels, oder wie

Aravind:
[1:02:58] Might- Google ist auch noch relevant.

David:
[1:03:00] Google ist Google relevant. Wenn wir ein natives KI-Betriebssystem sehen, dann wird es von einem dieser Akteure kommen: Apple, Microsoft, ChatGPT, Google und Perplexity.

Aravind:
[1:03:10] Ich denke schon. Oder Meta, man weiß ja nie. Aber ich denke schon. Das sind die Hauptakteure. Und ich kann mich sogar glücklich schätzen, in dieser Liste berücksichtigt zu werden. Alle anderen haben 10 bis 100 Mal mehr Kapital, vielleicht auch 1.000 Mal. Es ist also definitiv so, aber ich würde sagen, dass der Hauptvorteil in Bezug auf die strukturellen Beschränkungen bei Apple liegt.

Aravind:
[1:03:34] Im Grunde genommen, ja, werden sie den Anteil an den Werbeeinnahmen von Google verlieren. Wenn sie die Art und Weise ändern, wie die Suche und Safari funktionieren. Aber das könnten sie ohnehin verlieren, wenn der Richter im Fall des DOJ in diesem Sinne entscheidet. Wenn sie es also sowieso verlieren werden, könnten sie sich auf diese Vision einlassen.

Aravind:
[1:03:57] und das iPhone so verändern, dass es mehr auf KI ausgerichtet ist. Google hingegen wird nicht in der Lage sein, dies so schnell auf Android-Telefonen zu tun. Sie könnten es auf den Pixel-Telefonen versuchen, wo die Verbreitung viel geringer ist, so dass sie nicht viel Werbung verlieren, und sie könnten den Markt abtasten und dann versuchen, bei den anderen OEMs tiefer einzusteigen, aber sie haben hier mehr Einschränkungen und Restriktionen. Und OpenAI hat nicht die Möglichkeit, sein eigenes Gerät zu entwickeln. Sie haben die gleichen Probleme wie wir, wenn es darum geht, Samsung davon zu überzeugen, dies mit ihnen zu tun. Und auch Meta hat die gleichen Probleme. Es hat keine Suche, es hat keinen Browser, es hat keine tollen Modelle. Und Microsoft, Sie wissen schon, Windows hat das Telefon nicht. Abstraktion. Es wird also nicht plattformübergreifend sein, wie Google oder Apple es können.

Josh/Ejaaz:
[1:04:44] Nun, Arvind, ich möchte mich bei Ihnen bedanken und Ihnen dazu gratulieren, dass Sie einen Platz am Tisch haben. Das ist keine leichte Leistung. Ich meine, Sie haben es von einer halben Milliarde Dollar auf 18 Milliarden in 18 Monaten geschafft, oder so ein unverschämtes Wachstum. Ich gratuliere Ihnen also zu diesem Erfolg. Für die Zuhörer, die neugierig auf das sind, worüber wir heute sprechen, was würden Sie sagen, ist der beste Weg, um Ratlosigkeit zu erreichen? Wie würden Sie die Menschen dazu bringen, Ihr Produkt zu nutzen? Wohin sollten sie gehen?

Aravind:
[1:05:05] Perplexity.ai, das ist die Web-Landung. Bei mobilen Apps, iPhone, App Store und Play Store, geben Sie einfach perplexity im Play Store oder App Store ein. Ignorieren Sie die Werbung am oberen Rand, wie Gemini und Claude Werbung und so.

Josh/Ejaaz:
[1:05:19] Das muss man einfach lieben.

Aravind:
[1:05:20] Gehen Sie direkt zu unserer App, ja.

Josh/Ejaaz:
[1:05:22] Erstaunlich. Nun, Arvind, vielen Dank, dass Sie sich die Zeit genommen haben, heute bei uns zu sein. Wir wissen das wirklich zu schätzen.

No Responses
Bankless durchsuchen