Qu'est-ce que le Computer Use ?
Le Computer Use est la capacité des modèles IA à contrôler directement l'interface de l'ordinateur : déplacer le curseur, cliquer sur des boutons, taper du texte, naviguer sur des sites web et des applications de bureau. Le modèle « voit » l'écran (capture d'écran) et effectue des actions comme un humain.
Comment cela fonctionne-t-il ?
Un modèle multimodal analyse une capture d'écran, reconnaît les éléments d'interface (boutons, champs, menus), planifie une séquence d'actions et émet des commandes. Entre chaque étape, il analyse le nouvel état de l'écran et ajuste son plan.
Applications d'automatisation
Le Computer Use permet l'automatisation de processus dans des systèmes legacy sans API : saisie de données dans d'anciennes applications, navigation sur des portails fournisseurs, remplissage de formulaires administratifs. C'est le « dernier kilomètre » de l'automatisation — là où l'intégration API traditionnelle est impossible ou non rentable.