Manus, qui a déménagé à Singapour, n'a pas cessé de réfléchir sur l'Agent IA général.
Lors de la Stripe Tour qui se tient aujourd'hui à Singapour, Yi-Chao Ji (Peak), co-fondateur et chef scientifique de Manus, a eu une discussion avec Paul Harapin, directeur des revenus pour la région Asie-Pacifique et le Japon chez Stripe.
Lors de la réunion, Manus AI a révélé ses données opérationnelles récentes, le taux de revenu opérationnel (RRR, Revenue Run Rate) de Manus AI a atteint 90 millions de dollars et devrait bientôt dépasser le milliard.
Le directeur de Manus AI, Xiao Hong, a également précisé sur Jike que le Revenue Run Rate fait référence au Revenue du mois *12, et ne correspond pas au Cash Income. De nombreux produits AI proposent une option de paiement annuel, et cette partie ne peut être considérée que comme un dépôt prépayé, et non comme un Revenue. « Si nous divulguons selon cette 【fausse méthode】, nous pourrions obtenir un chiffre supérieur à 120 millions de dollars. », a déclaré Xiao Hong.
En plus des données opérationnelles, Ji Yichao a également partagé comment l'équipe Manus envisage la prochaine étape des agents généraux, ainsi que la différence entre les agents AI et l'AGI à l'avenir.
« Maintenant, presque tout le monde appelle ça un Agent. Par exemple, un microphone, certaines personnes l'appellent « un Agent d'enregistrement avec perception environnementale. » Ji Yichao a plaisanté en disant.
Il a également proposé deux principales lignes directrices pour l'étape suivante de l'expansion des capacités des agents généraux : d'une part, élargir l'échelle d'exécution grâce à la coopération entre plusieurs agents (par exemple, générer des centaines de sous-agents parallèles dans une enquête à grande échelle) ; d'autre part, ouvrir aux agents un "champ d'outils" plus large, sans restreindre leurs capacités à quelques API prédéfinies, mais en les faisant appel à l'écosystème open source, en installant des bibliothèques, et même en se vérifiant par visualisation et en apportant des modifications.
Ji Yichao a également mentionné que le monde numérique d'aujourd'hui est encore construit selon le paradigme "à utiliser par les personnes" - des pages web non API, des CAPTCHA, et la "gamification" des processus entraînent beaucoup de friction, les goulets d'étranglement ressemblent davantage à des contraintes écologiques et institutionnelles qu'à une intelligence des modèles.
C'est aussi l'une des raisons pour lesquelles Manus participe à l'événement Stripe : les deux parties avancent vers l'achèvement des paiements dans l'Agent, en reliant "recherche - décision - commande / règlement" pour former une boucle fermée, en collaborant sur l'infrastructure pour réduire les frictions dans le monde.
Voici les points saillants de la conversation, édités et organisés par Geek Park :
Q : Pouvez-vous vous présenter simplement aux spectateurs ? Votre blog récent sur « l'ingénierie contextuelle » est très inspirant, et je pense qu'il est incontournable pour quiconque développe un Agent IA. Chaque fois que je vais déjeuner avec les ingénieurs, ils ne parlent que de ça, donc je peux seulement m'asseoir ailleurs maintenant (rires). Mais pour ceux qui ne connaissent peut-être pas très bien Manus, pourriez-vous partager votre expérience et votre vision ?
Réponse : Merci Paul. Je suis ravi d'être ici. Manus construit un agent IA général.
De nombreuses institutions de recherche et entreprises tentent en réalité de créer un cerveau - de créer un grand modèle de langage. Mais nous pensons que, du point de vue des consommateurs, ce n'est pas vraiment bon. L'IA devrait pouvoir agir réellement et accomplir des choses, c'est pourquoi nous avons construit Manus.
Notre approche consiste à permettre à l'IA d'utiliser l'une des plus grandes inventions de l'histoire humaine : l'ordinateur universel. En donnant à l'IA un ordinateur, elle peut accomplir toutes les tâches que les humains peuvent faire. Manus peut vraiment réaliser des tâches. Par exemple, il peut vous aider à faire des présentations, à planifier un voyage, et même à gérer vos réseaux sociaux - bien que je ne recommande pas vraiment de le faire.
Nos utilisateurs aiment vraiment Manus. Nous avons lancé Manus en mars et nous avons déjà atteint un taux de revenus récurrent d'environ 90 millions (RRR, Revenue Run Rate), et nous allons bientôt dépasser 100 millions.
Je pense que c'est énorme pour une petite startup comme la nôtre. Mais plus important encore, cela montre que l'Agent IA n'est plus simplement un mot à la mode dans le domaine de la recherche, mais qu'il est réellement appliqué et prend racine.
Je peux partager avec vous une petite histoire sur le processus de construction de Manus.
Nous avons en fait tiré beaucoup d'inspiration de l'application de l'Agent coding. Par exemple, des produits de programmation AI comme Cursor ont déjà attiré beaucoup d'attention.
En tant qu'ingénieurs, nous utilisons naturellement Cursor. Mais nous sommes surpris de constater que de nombreux collègues non ingénieurs dans l'entreprise utilisent également Cursor. Bien sûr, ils n'écrivent pas de logiciel, mais l'utilisent pour faire de la visualisation de données, voire pour rédiger des articles. Ils ignorent la partie code à gauche et se contentent de dialoguer avec l'IA pour accomplir leur travail.
Cela nous fait réaliser que : nous devrions généraliser cette approche et donner du pouvoir aux non-programmeurs. C'est un cas d'utilisation de l'IA.
Q : Nous entendons de plus en plus de gens parler des agents IA et de l'AGI. Peux-tu nous aider à mieux distinguer ces deux concepts ? Que signifient respectivement l'agent IA et l'AGI pour toi et Manus ?
Réponse : Nous pensons que c'est une très bonne question.
Maintenant, tout le monde appelle presque tout « Agent ». Par exemple, un microphone, certaines personnes diront que c'est un « Agent d'enregistrement avec perception de l'environnement ».
Mais au moins, nous soutenons que l'Agent devrait être un sous-ensemble de l'IA appliquée. Faisons un pas en arrière et examinons les catégories d'applications d'IA courantes.
La plupart des gens sont déjà familiers avec deux catégories : la première est celle des chatbots, comme ChatGPT ; la seconde est celle des outils génératifs, comme MidJourney ou Sora. Dans ces systèmes, il n'y a généralement que deux rôles : l'utilisateur et le modèle. Vous interagissez avec le modèle pour obtenir une sortie. La différence avec l'Agent est qu'il introduit, en plus de l'utilisateur et du modèle, un troisième élément clé : l'environnement.
Le concept de « environnement » peut varier en fonction du type d'agent. Par exemple, dans un agent de conception, l'environnement peut être une toile ou un morceau de code ; tandis que dans Manus, notre objectif est de faire apparaître l'agent dans une machine virtuelle ou même sur l'ensemble d'Internet. Ainsi, l'agent peut observer l'environnement, décider de la prochaine étape à suivre et agir pour modifier l'environnement. Cela le rend très puissant.
Par exemple, dans Manus, vous pouvez exprimer un besoin, il ouvrira le navigateur, publiera une page web et vous aidera à réserver un vol. J'aime beaucoup cet exemple, car bien que réserver un vol puisse sembler simple, c'est en réalité l'IA qui transforme directement le monde réel – le résultat n'est pas la sortie du modèle, mais votre billet d'avion. L'IA s'est véritablement impliquée dans votre monde. C'est ce que nous appelons un Agent.
En termes simples, un Agent est un système d'IA capable de représenter l'utilisateur et d'interagir avec l'environnement.
En ce qui concerne l'AGI, ce terme est également souvent mentionné, beaucoup de gens l'assimilent à une super-intelligence. Nous pensons que l'AGI est un système capable d'exécuter de nombreuses tâches grâce à des capacités générales des modèles d'IA, sans conception particulière.
Nous pensons que le « codage agent » est en réalité un chemin vers l'AGI. Ce n'est pas une compétence dans un domaine vertical, mais si vous l'attribuez à un ordinateur, il peut presque tout faire sur un ordinateur. Donc, pour nous, la condition pour l'AGI est de construire un environnement suffisamment développé pour permettre à cette capacité de s'exprimer.
Q : Dans quels scénarios l'IA a-t-elle réellement fait la différence aujourd'hui ? Dans quels domaines jouera-t-elle un rôle à l'avenir ? Quand verrons-nous un moment similaire à celui de l'iPhone ?
Réponse : En ce qui concerne l'Agent, si l'on regarde simplement les capacités du modèle, le modèle phare actuel est déjà très impressionnant, presque de niveau "super-héros". Ils peuvent surpasser la plupart d'entre nous dans des compétitions mathématiques ou des raisonnements logiques.
Mais je pense que le modèle reste comme un « cerveau dans une bouteille », et pour qu'il puisse vraiment déployer sa puissance, il doit interagir avec le monde réel et toucher à la réalité. Mais malheureusement, c'est précisément là que le problème commence.
Par exemple, si vous demandez à une IA d'effectuer certaines tâches administratives, elle est effectivement très douée pour les tâches répétitives. Des produits comme Deep Research, par exemple, agrègent simplement des informations et fournissent un résultat, leur sortie apparaît simplement là.
Prenons un exemple, presque tout est conçu pour les humains aujourd'hui, pas seulement dans le monde physique, mais même dans le monde numérique. Par exemple, les outils web, ils ressemblent à de petits jeux, sans API ni interface standard. Les CAPTCHA sont omniprésents, interférant partout avec les agents.
Donc, je pense que l'IA fonctionne très bien dans des tâches auto-contenues et fermées, mais une fois qu'il s'agit du monde réel, elle rencontre des obstacles.
Quand le moment iPhone apparaîtra-t-il dans le futur ? Je pense que ce n'est pas un problème technique, mais plutôt une sorte de contrainte systémique. Ce n'est pas quelque chose que des startups comme les nôtres peuvent résoudre seules.
Je pense qu'il faut une transformation progressive, exigeant l'évolution conjointe de tout l'écosystème. Cela nécessite également des entreprises comme Stripe de se concentrer sur le niveau d'infrastructure. Par exemple, nous intégrons le nouvel API de paiement Agentic de Stripe. Tout le monde travaille ensemble.
Q : Alors, pouvons-nous parler des scénarios typiques où les utilisateurs utilisent Manus ? Comment l'utilisent-ils ? Quelle puissance cela représente-t-il ?
Réponse : Oui, même si nous venons de cette génération actuelle d'Agents, nous avons déjà vu de nombreux cas d'utilisation intéressants.
Par exemple, nous venons d'emménager à Singapour et nous devons engager un agent immobilier pour nous aider à trouver un logement. C'est un agent réel (rires).
Et maintenant, ces intermédiaires utilisent Manus : ils analysent, en fonction des besoins des clients, l'emplacement de l'entreprise et la zone où les employés souhaitent vivre, et génèrent des recommandations correspondantes.
Je trouve cela très intéressant, car cela appartient à une « demande de longue traîne ». En général, il n'existe pas de produit AI spécialement conçu pour ce type de scénario concret, mais comme Manus est un Agent polyvalent, il peut répondre à ces besoins. Nous pensons que la demande de longue traîne mérite une attention particulière.
D'un point de vue macro, cela peut sembler être une longue traîne, mais pour un utilisateur spécifique, c'est précisément leur travail quotidien. Ce type de scénario est particulièrement précieux.
C'est comme le paysage des moteurs de recherche d'aujourd'hui. Si vous ne recherchez que du contenu courant, que ce soit avec Google ou Bing, la qualité des résultats est à peu près similaire. Alors pourquoi les gens choisissent-ils l'un ou l'autre ? Peut-être parce qu'un moteur de recherche leur a donné des résultats plus appropriés à un moment donné. Et si vous recherchez du contenu très personnalisé ou spécialisé, les différences sont encore plus marquées. C'est pourquoi nous pensons que l'avantage d'un agent généraliste réside ici.
Alors, comment pouvons-nous l'améliorer ? Nous avons réfléchi longtemps, car nous pensons que tout tourne autour de la programmation. Si vous confiez un ordinateur à l'IA, alors la façon dont il interagit avec l'environnement est en réalité par la programmation.
Nous pensons qu'il est possible d'améliorer cela de deux manières. La première est la mise à l'échelle. Mais que se passerait-il si vous pouviez multiplier par cent les capacités de l'Agent ?
Récemment, Manus a lancé une nouvelle fonctionnalité appelée Wide Research. Le principe de base est de permettre à un Agent de dériver des centaines d'Agents pour accomplir des tâches ensemble. Vous savez, si vous laissez simplement l'IA vous aider avec de petites tâches, il y a souvent des choses que vous pouvez accomplir vous-même. Mais si la tâche est très vaste, il est impossible pour une seule personne de la réaliser, comme lorsqu'il s'agit de mener des recherches à grande échelle. À ce moment-là, avoir des centaines d'Agents travaillant en parallèle devient extrêmement puissant.
Deuxièmement, nous devons également permettre à l'Agent d'utiliser l'ordinateur de manière plus flexible. Par exemple, si vous ne configurez des outils prédéfinis que pour un Agent IA, son espace d'action sera limité à ces outils. Mais imaginez que vous êtes un programmeur et que vous avez accès à l'ensemble des ressources de la communauté open source.
Par exemple, lorsque vous imprimez en 3D, il est difficile de modifier directement les paramètres du modèle, mais si vous pouvez trouver la bonne bibliothèque sur GitHub, l'installer directement résoudra votre problème. Chez Manus, nous optimisons la polyvalence et avons proposé un concept appelé « l'effet réseau des outils ».
Il y a un exemple très intéressant : de nombreux utilisateurs utilisent Manus pour la visualisation des données. Vous savez, en Asie, il arrive parfois que des problèmes surviennent, par exemple, lorsque des caractères chinois apparaissent avec des erreurs de police dans les graphiques. Peut-être que certains utilisateurs professionnels écrivent des règles de codage dur, comme quelle police utiliser lors de la sortie en coréen. Mais cette méthode rendra le système de plus en plus rigide.
La méthode que nous avons adoptée consiste à ajouter une capacité très simple au système : visualiser des images. Le résultat a été surprenant – car les modèles d'aujourd'hui sont déjà très intelligents, ils vérifient eux-mêmes après avoir généré des images visuelles, prennent conscience des erreurs, puis se corrigent automatiquement. Nous avons découvert que la flexibilité des outils peut résoudre plus de problèmes que les règles codées en dur.
Q : C'est une époque passionnante. Je suis vraiment excité, j'espère juste pouvoir revenir à mes trente ans (rire). En ce qui concerne la recherche médicale, je sais que Manus est également très fort dans ce domaine. Avez-vous observé certains utilisateurs utilisant Manus pour rechercher la santé ?
Réponse : Beaucoup de gens utilisent déjà Manus pour des recherches, pas seulement dans le domaine médical. Nous trouvons cela très intéressant, car il existe actuellement de nombreux produits dits de "recherche approfondie" qui vous aident à collecter une grande quantité d'informations et à effectuer certaines analyses, mais qui ne vous donnent finalement qu'un fichier markdown ou un document. Cela est loin d'être suffisant.
Souvent, ce dont les chercheurs ont vraiment besoin, c'est de résultats qu'ils peuvent livrer directement à leur patron ou à leur équipe. C'est pourquoi nous avons renforcé la production des résultats de recherche sur Manus. Par exemple, dans la recherche médicale, il est souvent nécessaire de générer des rapports formels, comme des présentations PowerPoint. Par conséquent, nous devons optimiser la capacité de sortie de l'IA pour répondre aux besoins des chercheurs. C'est une expérience de "tooling".
Par exemple, de nombreux utilisateurs utilisent maintenant Manus pour faire des recherches, puis génèrent directement un site web. Vous pourriez penser que c'est complètement différent de la manière traditionnelle de construire un site.
Il faut savoir que créer un site web n'est en soi pas difficile, ce qui est difficile, c'est de garantir la fiabilité et l'exactitude des données. C'est pourquoi nous pensons qu'il est préférable de compléter tout le processus dans une seule conversation, un contexte partagé. Ainsi, vos recherches, vos idées peuvent être transformées de manière transparente en résultats finaux. C'est ce que nous faisons dans Manus.
Question : De nombreux pays discutent d'un sujet : à l'ère de l'IA, quel est l'avenir de l'humanité et l'impact économique. Que pensez-vous du remplacement des emplois ? Quels nouveaux postes pourraient apparaître ?
Réponse : Nos amis et investisseurs nous posent souvent cette question. Lorsque nous avons lancé Manus, nous pensions initialement que si nous pouvions construire un tel Agent, il pourrait aider les gens à économiser beaucoup de temps et à gagner de l'argent facilement.
Mais en réalité, nous avons constaté que cette vision n'a pas été complètement réalisée. Grâce à de nombreuses études auprès des utilisateurs, nous avons découvert qu'après utilisation, les utilisateurs travaillent en fait davantage. Parce qu'ils deviennent plus efficaces, ils peuvent réellement faire plus de choses pour lesquelles ils étaient déjà très doués. C'est le premier point.
De plus, nous pensons que Manus a ouvert un tout nouvel espace. Nous avons toujours discuté des machines virtuelles et du cloud computing. Nous pensons que Manus joue un rôle de « plateforme de cloud computing personnel ». Par exemple, le cloud computing existe depuis des décennies, mais il s'agit davantage d'un privilège d'ingénieurs, seuls nous pouvons appeler la puissance du cloud par la programmation. Les travailleurs du savoir ordinaires ne peuvent pas l'utiliser.
Mais maintenant, avec des agents IA comme Manus, les gens peuvent donner des instructions en langage naturel, permettant à l'IA d'exécuter des tâches. Cela équivaut à déverrouiller une toute nouvelle productivité. C'est ce que nous apportons.
Et finalement, en ce qui concerne "le remplacement", je pense que c'est en fait très difficile. Par exemple, les agents immobiliers, ils utilisent Manus tous les jours pour accomplir leur travail quotidien. Mais vous savez, l'IA ne pourra jamais remplacer la façon dont un agent communique avec un client. Nous sommes une entreprise d'IA, et même la vidéo de lancement de Manus a été écrite par un script de Manus, mais c'est toujours moi qui apparaît dans la vidéo, car c'est une question de confiance. Et la confiance ne peut pas être entièrement confiée à l'IA.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Manus dernier texte de dialogue : Essai de paiement par Agent, la société RRR près de 100 millions de dollars
Auteur | Li Yuan
Éditeur| Jingyu
Manus, qui a déménagé à Singapour, n'a pas cessé de réfléchir sur l'Agent IA général.
Lors de la Stripe Tour qui se tient aujourd'hui à Singapour, Yi-Chao Ji (Peak), co-fondateur et chef scientifique de Manus, a eu une discussion avec Paul Harapin, directeur des revenus pour la région Asie-Pacifique et le Japon chez Stripe.
Lors de la réunion, Manus AI a révélé ses données opérationnelles récentes, le taux de revenu opérationnel (RRR, Revenue Run Rate) de Manus AI a atteint 90 millions de dollars et devrait bientôt dépasser le milliard.
Le directeur de Manus AI, Xiao Hong, a également précisé sur Jike que le Revenue Run Rate fait référence au Revenue du mois *12, et ne correspond pas au Cash Income. De nombreux produits AI proposent une option de paiement annuel, et cette partie ne peut être considérée que comme un dépôt prépayé, et non comme un Revenue. « Si nous divulguons selon cette 【fausse méthode】, nous pourrions obtenir un chiffre supérieur à 120 millions de dollars. », a déclaré Xiao Hong.
En plus des données opérationnelles, Ji Yichao a également partagé comment l'équipe Manus envisage la prochaine étape des agents généraux, ainsi que la différence entre les agents AI et l'AGI à l'avenir.
« Maintenant, presque tout le monde appelle ça un Agent. Par exemple, un microphone, certaines personnes l'appellent « un Agent d'enregistrement avec perception environnementale. » Ji Yichao a plaisanté en disant.
Il a également proposé deux principales lignes directrices pour l'étape suivante de l'expansion des capacités des agents généraux : d'une part, élargir l'échelle d'exécution grâce à la coopération entre plusieurs agents (par exemple, générer des centaines de sous-agents parallèles dans une enquête à grande échelle) ; d'autre part, ouvrir aux agents un "champ d'outils" plus large, sans restreindre leurs capacités à quelques API prédéfinies, mais en les faisant appel à l'écosystème open source, en installant des bibliothèques, et même en se vérifiant par visualisation et en apportant des modifications.
Ji Yichao a également mentionné que le monde numérique d'aujourd'hui est encore construit selon le paradigme "à utiliser par les personnes" - des pages web non API, des CAPTCHA, et la "gamification" des processus entraînent beaucoup de friction, les goulets d'étranglement ressemblent davantage à des contraintes écologiques et institutionnelles qu'à une intelligence des modèles.
C'est aussi l'une des raisons pour lesquelles Manus participe à l'événement Stripe : les deux parties avancent vers l'achèvement des paiements dans l'Agent, en reliant "recherche - décision - commande / règlement" pour former une boucle fermée, en collaborant sur l'infrastructure pour réduire les frictions dans le monde.
Voici les points saillants de la conversation, édités et organisés par Geek Park :
Q : Pouvez-vous vous présenter simplement aux spectateurs ? Votre blog récent sur « l'ingénierie contextuelle » est très inspirant, et je pense qu'il est incontournable pour quiconque développe un Agent IA. Chaque fois que je vais déjeuner avec les ingénieurs, ils ne parlent que de ça, donc je peux seulement m'asseoir ailleurs maintenant (rires). Mais pour ceux qui ne connaissent peut-être pas très bien Manus, pourriez-vous partager votre expérience et votre vision ?
Réponse : Merci Paul. Je suis ravi d'être ici. Manus construit un agent IA général.
De nombreuses institutions de recherche et entreprises tentent en réalité de créer un cerveau - de créer un grand modèle de langage. Mais nous pensons que, du point de vue des consommateurs, ce n'est pas vraiment bon. L'IA devrait pouvoir agir réellement et accomplir des choses, c'est pourquoi nous avons construit Manus.
Notre approche consiste à permettre à l'IA d'utiliser l'une des plus grandes inventions de l'histoire humaine : l'ordinateur universel. En donnant à l'IA un ordinateur, elle peut accomplir toutes les tâches que les humains peuvent faire. Manus peut vraiment réaliser des tâches. Par exemple, il peut vous aider à faire des présentations, à planifier un voyage, et même à gérer vos réseaux sociaux - bien que je ne recommande pas vraiment de le faire.
Nos utilisateurs aiment vraiment Manus. Nous avons lancé Manus en mars et nous avons déjà atteint un taux de revenus récurrent d'environ 90 millions (RRR, Revenue Run Rate), et nous allons bientôt dépasser 100 millions.
Je pense que c'est énorme pour une petite startup comme la nôtre. Mais plus important encore, cela montre que l'Agent IA n'est plus simplement un mot à la mode dans le domaine de la recherche, mais qu'il est réellement appliqué et prend racine.
Je peux partager avec vous une petite histoire sur le processus de construction de Manus.
Nous avons en fait tiré beaucoup d'inspiration de l'application de l'Agent coding. Par exemple, des produits de programmation AI comme Cursor ont déjà attiré beaucoup d'attention.
En tant qu'ingénieurs, nous utilisons naturellement Cursor. Mais nous sommes surpris de constater que de nombreux collègues non ingénieurs dans l'entreprise utilisent également Cursor. Bien sûr, ils n'écrivent pas de logiciel, mais l'utilisent pour faire de la visualisation de données, voire pour rédiger des articles. Ils ignorent la partie code à gauche et se contentent de dialoguer avec l'IA pour accomplir leur travail.
Cela nous fait réaliser que : nous devrions généraliser cette approche et donner du pouvoir aux non-programmeurs. C'est un cas d'utilisation de l'IA.
Q : Nous entendons de plus en plus de gens parler des agents IA et de l'AGI. Peux-tu nous aider à mieux distinguer ces deux concepts ? Que signifient respectivement l'agent IA et l'AGI pour toi et Manus ?
Réponse : Nous pensons que c'est une très bonne question.
Maintenant, tout le monde appelle presque tout « Agent ». Par exemple, un microphone, certaines personnes diront que c'est un « Agent d'enregistrement avec perception de l'environnement ».
Mais au moins, nous soutenons que l'Agent devrait être un sous-ensemble de l'IA appliquée. Faisons un pas en arrière et examinons les catégories d'applications d'IA courantes.
La plupart des gens sont déjà familiers avec deux catégories : la première est celle des chatbots, comme ChatGPT ; la seconde est celle des outils génératifs, comme MidJourney ou Sora. Dans ces systèmes, il n'y a généralement que deux rôles : l'utilisateur et le modèle. Vous interagissez avec le modèle pour obtenir une sortie. La différence avec l'Agent est qu'il introduit, en plus de l'utilisateur et du modèle, un troisième élément clé : l'environnement.
Le concept de « environnement » peut varier en fonction du type d'agent. Par exemple, dans un agent de conception, l'environnement peut être une toile ou un morceau de code ; tandis que dans Manus, notre objectif est de faire apparaître l'agent dans une machine virtuelle ou même sur l'ensemble d'Internet. Ainsi, l'agent peut observer l'environnement, décider de la prochaine étape à suivre et agir pour modifier l'environnement. Cela le rend très puissant.
Par exemple, dans Manus, vous pouvez exprimer un besoin, il ouvrira le navigateur, publiera une page web et vous aidera à réserver un vol. J'aime beaucoup cet exemple, car bien que réserver un vol puisse sembler simple, c'est en réalité l'IA qui transforme directement le monde réel – le résultat n'est pas la sortie du modèle, mais votre billet d'avion. L'IA s'est véritablement impliquée dans votre monde. C'est ce que nous appelons un Agent.
En termes simples, un Agent est un système d'IA capable de représenter l'utilisateur et d'interagir avec l'environnement.
En ce qui concerne l'AGI, ce terme est également souvent mentionné, beaucoup de gens l'assimilent à une super-intelligence. Nous pensons que l'AGI est un système capable d'exécuter de nombreuses tâches grâce à des capacités générales des modèles d'IA, sans conception particulière.
Nous pensons que le « codage agent » est en réalité un chemin vers l'AGI. Ce n'est pas une compétence dans un domaine vertical, mais si vous l'attribuez à un ordinateur, il peut presque tout faire sur un ordinateur. Donc, pour nous, la condition pour l'AGI est de construire un environnement suffisamment développé pour permettre à cette capacité de s'exprimer.
Q : Dans quels scénarios l'IA a-t-elle réellement fait la différence aujourd'hui ? Dans quels domaines jouera-t-elle un rôle à l'avenir ? Quand verrons-nous un moment similaire à celui de l'iPhone ?
Réponse : En ce qui concerne l'Agent, si l'on regarde simplement les capacités du modèle, le modèle phare actuel est déjà très impressionnant, presque de niveau "super-héros". Ils peuvent surpasser la plupart d'entre nous dans des compétitions mathématiques ou des raisonnements logiques.
Mais je pense que le modèle reste comme un « cerveau dans une bouteille », et pour qu'il puisse vraiment déployer sa puissance, il doit interagir avec le monde réel et toucher à la réalité. Mais malheureusement, c'est précisément là que le problème commence.
Par exemple, si vous demandez à une IA d'effectuer certaines tâches administratives, elle est effectivement très douée pour les tâches répétitives. Des produits comme Deep Research, par exemple, agrègent simplement des informations et fournissent un résultat, leur sortie apparaît simplement là.
Prenons un exemple, presque tout est conçu pour les humains aujourd'hui, pas seulement dans le monde physique, mais même dans le monde numérique. Par exemple, les outils web, ils ressemblent à de petits jeux, sans API ni interface standard. Les CAPTCHA sont omniprésents, interférant partout avec les agents.
Donc, je pense que l'IA fonctionne très bien dans des tâches auto-contenues et fermées, mais une fois qu'il s'agit du monde réel, elle rencontre des obstacles.
Quand le moment iPhone apparaîtra-t-il dans le futur ? Je pense que ce n'est pas un problème technique, mais plutôt une sorte de contrainte systémique. Ce n'est pas quelque chose que des startups comme les nôtres peuvent résoudre seules.
Je pense qu'il faut une transformation progressive, exigeant l'évolution conjointe de tout l'écosystème. Cela nécessite également des entreprises comme Stripe de se concentrer sur le niveau d'infrastructure. Par exemple, nous intégrons le nouvel API de paiement Agentic de Stripe. Tout le monde travaille ensemble.
Q : Alors, pouvons-nous parler des scénarios typiques où les utilisateurs utilisent Manus ? Comment l'utilisent-ils ? Quelle puissance cela représente-t-il ?
Réponse : Oui, même si nous venons de cette génération actuelle d'Agents, nous avons déjà vu de nombreux cas d'utilisation intéressants.
Par exemple, nous venons d'emménager à Singapour et nous devons engager un agent immobilier pour nous aider à trouver un logement. C'est un agent réel (rires).
Et maintenant, ces intermédiaires utilisent Manus : ils analysent, en fonction des besoins des clients, l'emplacement de l'entreprise et la zone où les employés souhaitent vivre, et génèrent des recommandations correspondantes.
Je trouve cela très intéressant, car cela appartient à une « demande de longue traîne ». En général, il n'existe pas de produit AI spécialement conçu pour ce type de scénario concret, mais comme Manus est un Agent polyvalent, il peut répondre à ces besoins. Nous pensons que la demande de longue traîne mérite une attention particulière.
D'un point de vue macro, cela peut sembler être une longue traîne, mais pour un utilisateur spécifique, c'est précisément leur travail quotidien. Ce type de scénario est particulièrement précieux.
C'est comme le paysage des moteurs de recherche d'aujourd'hui. Si vous ne recherchez que du contenu courant, que ce soit avec Google ou Bing, la qualité des résultats est à peu près similaire. Alors pourquoi les gens choisissent-ils l'un ou l'autre ? Peut-être parce qu'un moteur de recherche leur a donné des résultats plus appropriés à un moment donné. Et si vous recherchez du contenu très personnalisé ou spécialisé, les différences sont encore plus marquées. C'est pourquoi nous pensons que l'avantage d'un agent généraliste réside ici.
Alors, comment pouvons-nous l'améliorer ? Nous avons réfléchi longtemps, car nous pensons que tout tourne autour de la programmation. Si vous confiez un ordinateur à l'IA, alors la façon dont il interagit avec l'environnement est en réalité par la programmation.
Nous pensons qu'il est possible d'améliorer cela de deux manières. La première est la mise à l'échelle. Mais que se passerait-il si vous pouviez multiplier par cent les capacités de l'Agent ?
Récemment, Manus a lancé une nouvelle fonctionnalité appelée Wide Research. Le principe de base est de permettre à un Agent de dériver des centaines d'Agents pour accomplir des tâches ensemble. Vous savez, si vous laissez simplement l'IA vous aider avec de petites tâches, il y a souvent des choses que vous pouvez accomplir vous-même. Mais si la tâche est très vaste, il est impossible pour une seule personne de la réaliser, comme lorsqu'il s'agit de mener des recherches à grande échelle. À ce moment-là, avoir des centaines d'Agents travaillant en parallèle devient extrêmement puissant.
Deuxièmement, nous devons également permettre à l'Agent d'utiliser l'ordinateur de manière plus flexible. Par exemple, si vous ne configurez des outils prédéfinis que pour un Agent IA, son espace d'action sera limité à ces outils. Mais imaginez que vous êtes un programmeur et que vous avez accès à l'ensemble des ressources de la communauté open source.
Par exemple, lorsque vous imprimez en 3D, il est difficile de modifier directement les paramètres du modèle, mais si vous pouvez trouver la bonne bibliothèque sur GitHub, l'installer directement résoudra votre problème. Chez Manus, nous optimisons la polyvalence et avons proposé un concept appelé « l'effet réseau des outils ».
Il y a un exemple très intéressant : de nombreux utilisateurs utilisent Manus pour la visualisation des données. Vous savez, en Asie, il arrive parfois que des problèmes surviennent, par exemple, lorsque des caractères chinois apparaissent avec des erreurs de police dans les graphiques. Peut-être que certains utilisateurs professionnels écrivent des règles de codage dur, comme quelle police utiliser lors de la sortie en coréen. Mais cette méthode rendra le système de plus en plus rigide.
La méthode que nous avons adoptée consiste à ajouter une capacité très simple au système : visualiser des images. Le résultat a été surprenant – car les modèles d'aujourd'hui sont déjà très intelligents, ils vérifient eux-mêmes après avoir généré des images visuelles, prennent conscience des erreurs, puis se corrigent automatiquement. Nous avons découvert que la flexibilité des outils peut résoudre plus de problèmes que les règles codées en dur.
Q : C'est une époque passionnante. Je suis vraiment excité, j'espère juste pouvoir revenir à mes trente ans (rire). En ce qui concerne la recherche médicale, je sais que Manus est également très fort dans ce domaine. Avez-vous observé certains utilisateurs utilisant Manus pour rechercher la santé ?
Réponse : Beaucoup de gens utilisent déjà Manus pour des recherches, pas seulement dans le domaine médical. Nous trouvons cela très intéressant, car il existe actuellement de nombreux produits dits de "recherche approfondie" qui vous aident à collecter une grande quantité d'informations et à effectuer certaines analyses, mais qui ne vous donnent finalement qu'un fichier markdown ou un document. Cela est loin d'être suffisant.
Souvent, ce dont les chercheurs ont vraiment besoin, c'est de résultats qu'ils peuvent livrer directement à leur patron ou à leur équipe. C'est pourquoi nous avons renforcé la production des résultats de recherche sur Manus. Par exemple, dans la recherche médicale, il est souvent nécessaire de générer des rapports formels, comme des présentations PowerPoint. Par conséquent, nous devons optimiser la capacité de sortie de l'IA pour répondre aux besoins des chercheurs. C'est une expérience de "tooling".
Par exemple, de nombreux utilisateurs utilisent maintenant Manus pour faire des recherches, puis génèrent directement un site web. Vous pourriez penser que c'est complètement différent de la manière traditionnelle de construire un site.
Il faut savoir que créer un site web n'est en soi pas difficile, ce qui est difficile, c'est de garantir la fiabilité et l'exactitude des données. C'est pourquoi nous pensons qu'il est préférable de compléter tout le processus dans une seule conversation, un contexte partagé. Ainsi, vos recherches, vos idées peuvent être transformées de manière transparente en résultats finaux. C'est ce que nous faisons dans Manus.
Question : De nombreux pays discutent d'un sujet : à l'ère de l'IA, quel est l'avenir de l'humanité et l'impact économique. Que pensez-vous du remplacement des emplois ? Quels nouveaux postes pourraient apparaître ?
Réponse : Nos amis et investisseurs nous posent souvent cette question. Lorsque nous avons lancé Manus, nous pensions initialement que si nous pouvions construire un tel Agent, il pourrait aider les gens à économiser beaucoup de temps et à gagner de l'argent facilement.
Mais en réalité, nous avons constaté que cette vision n'a pas été complètement réalisée. Grâce à de nombreuses études auprès des utilisateurs, nous avons découvert qu'après utilisation, les utilisateurs travaillent en fait davantage. Parce qu'ils deviennent plus efficaces, ils peuvent réellement faire plus de choses pour lesquelles ils étaient déjà très doués. C'est le premier point.
De plus, nous pensons que Manus a ouvert un tout nouvel espace. Nous avons toujours discuté des machines virtuelles et du cloud computing. Nous pensons que Manus joue un rôle de « plateforme de cloud computing personnel ». Par exemple, le cloud computing existe depuis des décennies, mais il s'agit davantage d'un privilège d'ingénieurs, seuls nous pouvons appeler la puissance du cloud par la programmation. Les travailleurs du savoir ordinaires ne peuvent pas l'utiliser.
Mais maintenant, avec des agents IA comme Manus, les gens peuvent donner des instructions en langage naturel, permettant à l'IA d'exécuter des tâches. Cela équivaut à déverrouiller une toute nouvelle productivité. C'est ce que nous apportons.
Et finalement, en ce qui concerne "le remplacement", je pense que c'est en fait très difficile. Par exemple, les agents immobiliers, ils utilisent Manus tous les jours pour accomplir leur travail quotidien. Mais vous savez, l'IA ne pourra jamais remplacer la façon dont un agent communique avec un client. Nous sommes une entreprise d'IA, et même la vidéo de lancement de Manus a été écrite par un script de Manus, mais c'est toujours moi qui apparaît dans la vidéo, car c'est une question de confiance. Et la confiance ne peut pas être entièrement confiée à l'IA.