Autoblog de korben.info

Open WebUI – Une interface graphique pour Ollama

Sat, 11 May 2024 18:06:13 +0000 - (source)

Open WebUI débarque pour changer notre façon d’interagir avec Ollama grâce à une interface graphique intuitive et ergonomique ! Parce que l’IA, c’est cool, mais si c’est simple à utiliser, c’est encore mieux. Ollama pour rappel, c’est un outil qui permet de faire tourner des LLM en local et qui s’utilise soit via du code, soit directement en ligne de commande.

Avec Open WebUI, vous allez enfin avoir une interface web personnalisable avec votre thème, sombre pour les hackers en herbe ou clair pour les âmes sensibles, dans la langue de votre choix, de l’anglais au klingon en passant par le français, et vous pourrez ainsi causer avec Ollama comme si vous étiez sur ChatGPT. Avec le support de Markdown, de LaTeX et de la coloration syntaxique, vous pourrez même lui faire cracher du code et des formules mathématiques comme jamais.

Open WebUI permet même d’utiliser plusieurs modèles en parallèle, comparer leurs réponses, et même les faire discuter entre eux… Et si vous voulez de l’interaction plus poussée, lâchez-vous avec les fonctionnalités de Récupération Augmentée (RAG). Vous pourrez intégrer des documents externes dans vos conversations et même aller les chercher directement sur le web grâce à une fonction de navigation intégrée.

Avec l’outil de création de fichiers modèle (modelfiles), vous pouvez également définir des agents conversationnels sur mesure et les partager avec la communauté Open WebUI.

Bien sûr, comme tout bon logiciel qui se respecte, Open WebUI gère la reconnaissance vocale, la synthèse Text-to-Speech et même la génération d’images avec DALL-E et d’autres systèmes compatibles. Cadeau bonux, l’intégration avec les API compatibles OpenAI, pour encore plus de possibilités déjantées.

Pour plus d’informations sur ces fonctionnalités et comment les configurer, consultez la documentation officielle d’Open WebUI.

C’est open source, c’est puissant, c’est customisable à outrance alors que vous soyez un champion du dev ou comme moi, juste un curieux qui veut s’amuser avec l’IA, vous allez vous régaler.

Avant de vous lancer dans l’installation d’Open WebUI, assurez-vous d’avoir les prérequis suivants :

Docker installé sur votre machine
Une URL de base pour Ollama (OLLAMA_BASE_URL) correctement configurée

Pour configurer l’URL de base d’Ollama, vous pouvez soit la définir en tant que variable d’environnement, soit la spécifier dans un fichier de configuration dédié.

Une fois les prérequis remplis, vous pouvez procéder à l’installation d’Open WebUI en utilisant Docker :

docker run -d -p 3000:8080 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Cette commande va télécharger l’image Docker d’Open WebUI et lancer un conteneur accessible sur http://localhost:3000.

Amusez-vous bien et si vous voulez en savoir plus, toutes les infos sont ici.

Llamafile – Exécutez des modèles de langage en un seul fichier !

Sat, 11 May 2024 17:13:17 +0000 - (source)

llamafile est un projet complètement barré qui va vous permettre de transformer des modèles de langage en exécutables. Derrière se cache en fait la fusion de deux projets bien badass : llama.cpp, un framework open source de chatbot IA, et Cosmopolitan Libc, une libc portable pour compiler des programmes C multiplateformes. En combinant astucieusement ces deux technos, les petits gars de Mozilla ont réussi à pondre un outil qui transforme les poids de modèles de langage naturel en binaires exécutables.

Imaginez un peu, vous avez un modèle de langage qui pèse dans les 4 gigas, dans un format .gguf (un format couramment utilisé pour les poids de LLM). Et bien avec llamafile, vous pouvez le transformer en un exécutable standalone qui fonctionnera directement sur le système sur lequel il est sans avoir besoin d’installer quoi que ce soit. Ça va permettre de démocratiser l’utilisation et la diffusion des LLM.

Et niveau portabilité, c’est le feu puisque ça tourne sur six OS, de Windows à FreeBSD en passant par macOS. Les devs ont bien bossé pour que ça passe partout, en résolvant des trucs bien crados comme le support des GPU et de dlopen() dans Cosmopolitan et croyez-moi (enfin, croyez-les) ça n’a pas été une mince affaire !

Niveau perf aussi c’est du brutal ! Sur Linux llamafile utilise pledge() et SECCOMP pour sandboxer le bousin et empêcher les accès fichiers non désirés et avec les derniers patchs de Justine Tunney, la perf CPU pour l’inférence en local a pris un boost de malade du genre 10 fois plus rapide qu’avant. Même sur un Raspberry Pi on peut faire tourner des petits modèles à une vitesse honnête.

Allez, assez parlé, passons à la pratique !

Voici comment tester vous-même un llamafile en un rien de temps :

Téléchargez l’exemple de llamafile pour le modèle LLaVA (licence : LLaMA 2, OpenAI) : llava-v1.5-7b-q4.llamafile (3,97 Go). LLaVA est un nouveau LLM qui peut non seulement discuter, mais aussi analyser des images que vous uploadez. Avec llamafile, tout se passe en local, vos données ne quittent jamais votre PC.
Ouvrez le terminal de votre ordinateur.
Si vous êtes sous macOS, Linux ou BSD, vous devrez autoriser l’exécution de ce nouveau fichier. (À faire une seule fois) :
chmod +x llava-v1.5-7b-q4.llamafile
Sous Windows, renommez simplement le fichier en ajoutant « .exe » à la fin.
Lancez le llamafile, par exemple :
./llava-v1.5-7b-q4.llamafile
Votre navigateur devrait s’ouvrir automatiquement sur une interface de chat. (Sinon, ouvrez-le et allez sur http://localhost:8080)
Quand vous avez fini, retournez dans le terminal et faites Ctrl-C pour arrêter llamafile.

Évidemment, Mozilla ne compte pas s’arrêter là et continue de bosser comme des dingues pour suivre le rythme des nouveaux modèles qui sortent et avec le support des dernières architectures dès leur sortie.

Il est même prévu qu’on puisse bientôt générer nos propres llamafiles en un seul clic ! D’ailleurs, Hugging Face est déjà dans la boucle pour héberger tout ce petit monde. Bref, je vous le dis, les amis, llamafile est un projet à suivre absolument !

Alors on dit merci qui ?

Merci Mozilla ! 🙏🦊

Le marché gris des clés de jeux PC – Un voyage en zone trouble

Sat, 11 May 2024 16:30:00 +0000 - (source)

Je viens de regarder une chouette vidéo de Monsieur Plouf sur le marché de revente de clés de logiciels et jeux vidéos et comme j’ai appris pleins de trucs, et bien je la partage avec vous. Perso, je m’étais jamais intéressé au sujet plus que ça car je ne suis pas gamer mais je pensais quand même que c’était un truc réglo.

Alors, c’est quoi ce marché gris dont il parle ?

En gros, c’est un peu comme les brocantes du dimanche matin, sauf qu’au lieu de chiner des vieilles babioles, on chine des clés de jeux pas chères. Ces clés permettent d’activer un jeu sur une plateforme comme Steam et normalement, elles sont fournies par les développeurs ou les éditeurs. Mais sur le marché gris dont parle Monsieur Plouf, elles débarquent d’on ne sait où, revendues par ces sites un peu louches.

Kinguin, G2A, Instant Gaming… etc, vous les connaissez peut-être, ce sont les principaux acteurs du marché gris, et ils ne sont pas vraiment copains avec les développeurs ni les éditeurs car ils revendent des clés sans leur accord, et souvent à des prix défiant toute concurrence. Pour y parvenir, ces sites achètent en réalité des clés dans des pays où les jeux sont moins chers, genre en Argentine ou en Turquie, ou en récupère via des fuites diverses et variées pour les revendre partout ailleurs. Des combines pas très réglo que développeurs ne voient pas d’un bon œil.

Bref, si vous pouvez éviter, c’est mieux surtout que Steam est parti en guerre contre ça et risque de désactiver vos clés, donc autant être patient et attendre les soldes.

Submariner – Le meilleur client Subsonic dispo sous Mac !

Sat, 11 May 2024 07:00:00 +0000 - (source)

Je vous ai déjà parlé à plusieurs reprises de Subsonic, un logiciel qui permet de monter sur votre serveur un clone de Spotify / Deezer / Apple Music… Et évidemment, qui dit serveur, dit client !

Et l’un des meilleurs clients du moment, c’est Submariner. Il fonctionne sous macOS et va vous permettre d’écouter aussi bien votre musique que vos podcasts auto-hébergés.

Développé à l’origine par Rafaël Warnault, le projet était un peu en pause ces derniers temps mais depuis 2022, Calvin Buckley a repris le flambeau pour lui redonner une seconde jeunesse et l’adapter aux dernières versions de macOS et de Subsonic.

La nouvelle version 3.0 vient donc de sortir et c’est du lourd ! Fini Electron, on est sur du 100% natif (Swift) pour d’excellentes performances et une intégration parfaite à macOS. Ça respecte les conventions d’Apple jusqu’au bout des ongles.

Avec Submariner, vous allez pouvoir streamer votre bibliothèque musicale et vos podcasts depuis votre propre serveur Subsonic ou les alternatives compatibles comme Navidrome. C’est hyper simple à configurer, il suffit de rentrer l’URL de votre serveur, vos identifiants et c’est parti mon kiki !

L’interface est bien pensée avec un design aux petits oignons et vous y retrouverez vos artistes, albums et playlists directement dans une jolie sidebar. Vous pouvez mettre des likes sur vos morceaux et albums préférés, et ça se synchronisera directement avec le serveur.

Côté fonctionnalités, y’a de quoi faire : lecture des formats sans perte, mini-lecteur accessible par raccourci, AirPlay, illustrations des albums qui s’affichent en grand quand on clique dessus, gestion des podcasts, égaliseur, scrobbling (suivi automatique de vos habitudes), mode sombre… Et même le support d’AppleScript pour contrôler la lecture via vos propres scripts. Ça c’est cool pour ceux qui aiment bidouiller.

Puis les petits détails bien pratiques comme pouvoir glisser-déposer un morceau de l’appli vers une playlist, ou des fichiers sur l’icône du dock pour les importer dans la bibliothèque, le choix de l’ordre de tri des albums, la purge des fichiers téléchargés, le support du tactile avec les gestes de navigation…

Bref, si vous avez un serveur Subsonic et un Mac, je vous le recommande.

Merci à j0j0b4rj0 pour l’info !

HTTP Toolkit – Un super outil pour simuler et debugger des requêtes HTTP(S)

Fri, 10 May 2024 07:00:00 +0000 - (source)

Si vous êtes développeur, vous connaissez sûrement les galères quand on doit débugger des applis web ou mobiles à savoir intercepter les requêtes HTTP pour voir ce qui s’y passe, simuler des API… etc.

Et bien bonne nouvelle, puisqu’il y a un outil parfait pour ça : HTTP Toolkit ! C’est un soft open source développé par un certain Tim Perry, qui fonctionne sous Windows, Linux, macOS et qui permet :

D’intercepter en temps réel le trafic HTTP/HTTPS de n’importe quel client (browser, mobile, scripts, containers Docker…)
D’explorer, filtrer et inspecter en détail les requêtes et réponses (URL, statut, headers, body…)
De faire des breakpoints et éditer le trafic à la volée (modifier requête, simuler réponse, injecter erreurs…)
Mais également de prototyper entièrement des API, créer des règles pour router les requêtes sur vos endpoints

Et encore, je vous la fais courte mais y a 1000 autres features et c’est super simple à prendre en main grâce à une interface plutôt soignée avec plein de petites explications. De plus, ça s’intègre avec l’éditeur Monaco de VS Code, les DevTools, le protocole adb, les spéc Open API… Et surtout, y’a une grosse communauté de fans qui soutiennent le projet.

Avec cet outil vous pourrez par exemple intercepter en 1 clic ce qui se passe dans une fenêtre Chrome ou une application mobile spécifique sans avoir à configurer un proxy, récupérer des certificats SSL et autres joyeusetés.

Je vous invite à le tester, vous m’en direz des nouvelles. Ça se passe par ici.

Merci à Lorenper pour le soft !

RomM – Le gestionnaire de ROMs des retro gamers sérieux

Thu, 09 May 2024 07:00:00 +0000 - (source)

Vous galérez avec vos ROMs de jeux rétro éparpillées un peu partout sur votre PC ? Vous passez des heures à chercher le bon émulateur, les bons fichiers, les bonnes versions ? Et bien tout ça c’est fini, grâce à RomM qui est un gestionnaire de ROMs vraiment cool.

Vous lui indiquez le répertoire qui contient tous vos jeux, et hop, en quelques clics, il scanne et organise tout ce bordel avec les bonnes infos et les jolies jaquettes qu’il va récupérer direct sur IGDB. RomM gère surtout un paquet de plateformes comme la Super Nintendo, la PlayStation, la GameBoy, la MegaDrive et même des trucs plus obscurs comme le PocketStation.

Ce outil vous permet même lancer vos jeux directement dans le navigateur grâce à EmulatorJS comme ça, pas besoin d’installer 50 émulateurs, tout est intégré, propre et facile. C’est beau !

C’est également super customisable, avec support des ROMs en plusieurs fichiers pour les jeux PS1, parsing des tags des noms de fichiers pour classer par région, gestion des permissions et des utilisateurs…etc Bref, c’est du solide !

Et si vous êtes un gros noob, pas de panique, c’est pas sorcier de l’installer. Vous créez votre clé API IGDB, vous mettez vos ROMs dans le bon format de dossier, vous modifiez deux trois trucs dans le fichier docker-compose.yml et voilà, en deux temps trois mouvements vous aurez votre serveur qui tourne ! Sur le NAS par exemple, c’est top comme ça plus de galère, plus de temps perdu, juste le plaisir du jeu à l’ancienne.

Le mec derrière RomM a même fait un wiki très complet sur le GitHub du projet.

A découvrir ici !

Encore merci à Lorenper !

AlphaFold 3 – Un sacré bond en avant pour la modélisation des molécules du vivant

Thu, 09 May 2024 05:34:13 +0000 - (source)

Vous vous souvenez d’AlphaFold 2, ce modèle d’IA assez dingue de Google DeepMind qui avait fait des avancées majeures dans la prédiction des structures de protéines ? Eh bien, la version 3 vient de débarquer et elle repousse encore un peu plus les limites !

AlphaFold 3, c’est comme si on passait d’un film noir et blanc du genre la Vache et Le Prisonnier à un film en 3D style Avatar, car non seulement il prédit avec une précision impressionnante la structure 3D des protéines, mais il est également capable de modéliser leurs interactions avec tout un tas d’autres molécules : l’ADN, l’ARN, les petites molécules organiques comme les médicaments, et même les modifications chimiques.

Concrètement, ça veut dire qu’on va pouvoir mieux comprendre comment toutes ces molécules qui nous composent s’assemblent et fonctionnent ensemble, comme les rouages de l’horloge cosmique de la viiiie. Un sacré bond en avant pour décrypter les processus biologiques fondamentaux et leurs dysfonctionnements à l’origine des maladies.

Son secret, évidemment, c’est une architecture de réseau de neurones encore plus puissante et entraînée sur une montagne de données moléculaires. Le cœur du système repose sur un module Evoformer amélioré, couplé à une nouvelle approche basée sur des réseaux de diffusion qui partent d’un nuage d’atomes pour converger vers la structure moléculaire la plus probable.

Et les résultats sont vraiment impressionnants puisque sur les jeux de données de référence, AlphaFold 3 bat des records avec des améliorations significatives par rapport aux méthodes existantes. Pour certaines catégories d’interactions, comme celles avec les médicaments, il augmente même nettement la précision des prédictions. Et tout ça sans même avoir besoin de données structurales en entrée.

Mais le plus cool, c’est que c’est ~~open source~~ (Edit : Apparemment, ça ne l’est plus malheureusement – Merci à Enthuo pour la correction) et accessible gratuitement à la communauté scientifique via le nouveau serveur AlphaFold. Cet outil permet à n’importe quel chercheur de générer des prédictions pour ses protéines d’intérêt en quelques clics, là où il fallait avant un travail titanesque et des moyens conséquents. Bref, de quoi démocratiser la biologie structurale et accélérer les découvertes !

Évidemment, avec une telle puissance vient aussi de grandes responsabilités, alors les gros cerveaux derrière DeepMind ont longuement planché avec de nombreux experts et organismes pour définir un cadre éthique et limiter les risques de mésusage comme on dit. Parce qu’autant un AlphaFold entre de bonnes mains, ça peut faire avancer la science et la médecine de façon spectaculaire, autant on n’a pas envie de voir débarquer des virus ou des prions tueurs conçus par des apprentis sorciers.

Mais j’ai hâte de voir ce que la communauté scientifique va réussir à faire avec cet outil génial. Peut-être de nouvelles enzymes pour des applications industrielles, des matériaux bio-inspirés aux propriétés uniques, ou des protéines thérapeutiques plus efficaces ? En tout cas une chose est sûre, la révolution biotech ne fait que commencer et nul doute qu’AlphaFold 3 en sera l’un des acteurs clés !

Source

Raspberry Pi Connect – Accédez à votre Pi depuis n’importe où !

Thu, 09 May 2024 05:07:45 +0000 - (source)

Ah, les joies du Raspberry Pi… On en achète un, puis deux, puis trois… Et avant de s’en rendre compte, on se retrouve avec une armée de petits ordinateurs dispersés aux quatre coins de la maison, du garage et du jardin. Du coup, pas facile de s’y retrouver, surtout quand il faut jongler avec VNC, SSH et autres joyeusetés pour y accéder à distance.

Mais ne vous inquiétez pas, les gens de la Raspberry Pi Foundation ont pensé à tout et viennent de nous pondre Raspberry Pi Connect, un nouvel outil bien pratique pour accéder aux Pi à distance, et ce, depuis n’importe quel navigateur web. Comme ça, plus besoin de se prendre la tête aevec la configuration réseau, des ports à ouvrir et des adresses IP à retenir.

Pour utiliser ce truc, il vous faut d’abord un Raspberry Pi 4, 5 ou 400 équipé d’une version 64 bits de Raspberry Pi OS Bookworm avec l’interface graphique Wayland. Une fois votre Pi à jour, ouvrez un terminal et entrez la commande magique :

sudo apt install rpi-connect

Quelques secondes plus tard, après un petit redémarrage, vous devriez voir apparaître une nouvelle icône dans la barre des tâches, en haut à droite de votre écran. Cliquez dessus, choisissez « Sign in » et suivez les instructions pour associer votre Pi à un compte Raspberry Pi. N’oubliez pas d’activer la double authentification.

Et là, c’est le moment « Waouh » : depuis n’importe quel ordinateur, tablette ou téléphone équipé d’un navigateur web, rendez-vous sur connect.raspberrypi.com, connectez-vous et… tadaa ! Vous voilà en train d’utiliser votre Raspberry Pi à distance, via un accès sécurisé et chiffré à votre bureau.

En fait, quand vous utilisez Raspberry Pi Connect, une connexion pair-à-pair (P2P) est établie entre votre navigateur et votre Pi grâce à la technologie WebRTC (si vous ne connaissez pas, c’est ce qui est utilisé par Zoom, Slack ou Google Meet pour la visio). Le démon rpi-connect installé sur votre Pi se charge alors de négocier la meilleure connexion possible avec le serveur VNC intégré. Comme ça, dans la plupart des cas, une connexion directe est possible, sans passer par les serveurs de Raspberry Pi. Mais si jamais ce n’est pas faisable, pas de stress, le trafic sera alors relayé de manière sécurisée et chiffrée via les serveurs de la Raspberry Pi Foundation, en utilisant le protocole DTLS.

Pour le moment, il n’y a qu’un seul serveur relais, situé au Royaume-Uni, donc cela peut entraîner un peu de latence si vous êtes loin des côtes anglaises. Mais d’autres serveurs sont prévus pour garantir une bonne expérience utilisateur. Et vous pouvez même vérifier si votre connexion est directe ou relayée en passant votre souris sur l’icône de cadenas dans votre navigateur.

L’équipe de Raspberry Pi Connect a bien sûr l’intention de garder le service gratuit pour les utilisateurs, tant qu’une connexion directe est possible, et ce, quel que soit le nombre d’appareils utilisés. Et pour le moment, les connexions relayées sont, elles aussi gratuites, le temps de voir combien de personnes en ont besoin et quelle quantité de bande passante est nécessaire.

Bref, ça tombe à pic, surtout depuis le passage de Raspberry Pi OS à Wayland qui empêchait d’utiliser la fonction d’accès distant intégrée au protocole X11. Avec ce nouvel outil, on retrouve donc ce confort d’utilisation qui a fait la réputation des Pi et en quelques clics, on peut accéder à sa petite merveille et bidouiller tout ce qu’on veut depuis n’importe où.

Si ça vous dit, tout est expliqué ici !

Source

Fabric – Un framework open source pour travailler main dans la main avec l’IA

Wed, 08 May 2024 07:00:00 +0000 - (source)

Depuis que l’IA a débarqué dans nos vies, il est maintenant possible de lui déléguer une grande partie de nos tâches fastidieuses et chronophages, ce qui nous permet de nous concentrer sur l’essentiel. Des outils comme ChatGPT ont évidemment démocratisé l’accès à cette technologie, mais ses capacités vont bien au-delà d’un simple agent conversationnel.

En effet, l’IA peut devenir un véritable assistant personnel pour booster à la fois notre créativité et notre productivité. Perso, je ne peux plus m’en passer, et que vous soyez développeur, designer, écrivain ou entrepreneur, il existe de nombreuses façons de l’intégrer dans vos workflows. Génération de code, création de visuels, rédaction et correction de texte, analyse de données, relecture de contrats, automatisation de tâches… La liste est infinie pour peu que vous ayez un peu d’imagination.

C’est là qu’entre en scène le projet open-source Fabric qui permet justement de créer des workflows basés sur l’IA totalement sur-mesure en combinant différents modèles et différentes APIs. Comme ça vous pourrez concevoir vos propres assistants adaptés à vos propres besoins.

Concrètement, Fabric fonctionne comme un framework avec différents composants réutilisables :

Des Patterns qui sont des templates de prompts répondant à un besoin précis (ex : résumer un article, extraire les idées clés d’une vidéo, etc).
Des Stitches qui permettent d’enchaîner plusieurs Patterns pour créer des workflows avancés.
Un serveur central appelé Mill qui héberge et sert les Patterns.
Des apps clientes appelées Looms qui invoquent les Patterns via des APIs.

Plutôt que d’utiliser des services IA fermés, Fabric vous donne le contrôle total sur vos workflows. Comme ça, vous pouvez héberger vous-même les différents composants et garder vos données en local. Le tout étant bien sûr basé sur des standards ouverts et interopérables.

L’idée pour les gens derrière Fabric, c’est de rendre l’intégration de l’IA aussi simple que l’utilisation de commandes Unix. Par exemple, pour résumer le contenu d’une page web avec l’IA, il vous suffit de chaîner les deux commandes suivantes :

curl https://example.com | fabric --pattern summarize

Vous pouvez même créer des aliases pour vos patterns les plus utilisés. Par exemple pour analyser un article :

alias analyze="fabric --pattern analyze" cat article.txt | analyze

Bien sûr, tout ceci nécessite un peu de pratique et de changements dans vos habitudes de travail mais une fois les bons réflexes pris, le gain de temps sera considérable.

Certains craignent que l’IA nous mette tous au chomage mais je pense au contraire qu’elle va surtout nous aider à torcher rapidement les tâches ingrates pour nous permettre d’être plus créatifs et de bosser sur les sujets de fond avec plus de valeur ajoutée.

Si ça vous dit d’essayer Fabric, la doc est ici.

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Tue, 07 May 2024 07:00:00 +0000 - (source)

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.