Voice Coding

Coder par la voix avec des agents IA : l'avenir de la productivité dev

Pourquoi la voix est le mode de saisie naturel pour les agents de code IA comme Cursor et Claude Code. Exploration de l'avenir du développement.

Murmur TeamFebruary 19, 20268 min readcoding agentique, voice coding, agents IA, productivité développeur, avenir du code

En bref : Les outils de code IA évoluent de l'autocomplétion vers des agents autonomes. À mesure que les agents prennent en charge l'implémentation, le rôle du développeur se recentre sur la formulation d'instructions claires. La voix est le moyen le plus rapide et le plus naturel de le faire.

Les trois ères du code assisté par IA

Le développement logiciel a traversé trois phases distinctes avec l'assistance IA :

Ère 1 : l'autocomplétion (2021-2023) GitHub Copilot suggérait la ligne de code suivante. Vous tapiez, il devinait. L'entrée était du code, la sortie était du code. Utile, mais limité.

Ère 2 : le code par chat (2023-2025) Des outils comme Cursor, ChatGPT et Copilot Chat vous permettaient de décrire ce que vous vouliez en langage naturel. L'entrée est passée au français (ou toute autre langue), la sortie était des blocs de code à appliquer. Un grand pas en avant.

Ère 3 : le code agentique (2025-aujourd'hui) Claude Code, le mode Agent de Cursor et les outils similaires ne se contentent pas de générer des bouts de code. Ils lisent toute votre codebase, planifient des modifications en plusieurs étapes, éditent plusieurs fichiers, lancent les tests et itèrent sur leur propre travail. Vous décrivez un objectif, et l'agent l'exécute.

Chaque ère a transféré davantage de travail du développeur vers l'IA. Et à chaque transition, le mode de saisie compte de plus en plus.

Qu'est-ce que le code agentique ?

Le code agentique consiste à utiliser des outils d'IA qui agissent de manière autonome pour accomplir des tâches de développement. Au lieu de demander un bout de code et de l'appliquer manuellement, vous donnez une tâche à un agent, qui :

Lit les fichiers de code pertinents pour comprendre le contexte
Élabore une approche
Effectue des modifications sur plusieurs fichiers
Lance les tests ou les builds pour vérifier
Itère sur les erreurs
Vous présente le travail terminé pour relecture

C'est fondamentalement différent de l'autocomplétion ou même du code par chat. L'agent fait l'implémentation. Votre travail consiste à :

Décrire clairement et complètement ce que vous voulez
Relire la sortie pour en assurer la qualité
Corriger le cap quand l'agent part dans la mauvaise direction

Deux de ces trois tâches sont des tâches de communication. Et la voix est le moyen naturel par lequel les humains communiquent des idées complexes.

Le goulot d'étranglement : taper des prompts détaillés

Voici le problème central du workflow de code agentique actuel :

La qualité du travail de l'agent est directement proportionnelle à la qualité de vos instructions. Un prompt vague produit un code vague. Un prompt détaillé produit exactement ce dont vous avez besoin.

Mais les développeurs sont formés à écrire du code, pas de la prose. Et taper de longues instructions détaillées dans un terminal ou un panneau de chat est lent et peu naturel. Alors en pratique, que se passe-t-il ?

Les développeurs écrivent le prompt le plus court qui pourrait marcher :

ajouter l'authentification utilisateur

Puis ils itèrent quand le résultat ne convient pas :

non, utilise des JWT pas des sessions

mets le middleware dans un fichier séparé

ajoute aussi les refresh tokens

Quatre prompts, quatre itérations, quatre cycles de relecture. Chacun prend du temps. Et le nombre total de mots sur l'ensemble des itérations est souvent supérieur à ce qu'aurait donné un seul prompt détaillé dès le départ.

Le goulot d'étranglement n'est pas l'IA. C'est le coût d'exprimer des exigences détaillées en tapant au clavier.

Pourquoi la voix est le mode de saisie naturel pour les agents IA

Vitesse : 3 fois plus de mots par minute

Le développeur moyen tape 60 à 80 mots par minute. La personne moyenne parle à plus de 150 mots par minute. Pour la saisie en langage naturel (ce que les agents attendent), la voix est tout simplement plus rapide.

Un prompt de 100 mots prend 75 secondes à taper mais seulement 40 secondes à dicter. Et comme la voix réduit la friction, on inclut naturellement plus de détails, ce qui signifie moins d'itérations.

Détail naturel : on explique plus quand on parle

Quand vous expliquez un problème technique à un collègue, vous ne lui donnez pas un résumé en cinq mots. Vous décrivez le contexte, le comportement attendu, ce que vous avez essayé et quelles sont les contraintes.

Les prompts vocaux reproduisent naturellement ce schéma. Quand le coût des mots baisse (parler vs taper), on inclut des informations qu'on aurait coupées.

Prompt tapé : « Corrige le problème de performance du tableau de bord »

Prompt dicté : « La page du tableau de bord charge lentement, environ 4 secondes au chargement initial. Je pense que le problème vient du fait qu'on récupère toutes les données utilisateur dans la requête principale au lieu de charger le fil d'activité en lazy loading. Peux-tu séparer le fil d'activité dans un appel API distinct qui se charge après le rendu initial de la page, et ajouter un composant skeleton de chargement en attendant ? »

Même développeur, même problème, des prompts radicalement différents. La version dictée donne à l'agent assez de contexte pour réussir du premier coup.

Flux de pensées : réfléchir à voix haute

L'un des avantages uniques de la voix est de pouvoir réfléchir à voix haute. En tapant, il faut formuler sa pensée avant de l'écrire. En parlant, on peut raisonner sur un problème en temps réel :

« Bon, le problème c'est qu'on a cette connexion WebSocket qui tombe quand l'utilisateur change d'onglet. Je pense que Chrome throttle la connexion après un certain timeout. Ce qu'il nous faudrait probablement, c'est un mécanisme de heartbeat, non ? Genre un ping toutes les 15 secondes. Et ensuite côté client, si on détecte une déconnexion, on se reconnecte automatiquement mais on rejoue aussi les événements qu'on a ratés. En fait, le replay pourrait être complexe. Commençons par le heartbeat et la reconnexion automatique, et on gèrera le replay dans une tâche ultérieure. »

Ce genre de raisonnement a une valeur immense pour un agent IA. Il montre votre processus de réflexion, vos contraintes et vos priorités. Un prompt tapé perdrait la majeure partie de ce contexte.

Prêt à essayer la dictée vocale ?

Essayez Murmur gratuitement pendant 7 jours avec toutes les fonctionnalites Pro. Dictez dans n'importe quelle app.

Télécharger gratuitement

Comment la transcription IA de Murmur vous aide

Tous les outils de dictée vocale ne se valent pas pour le code agentique. Murmur est spécialement conçu pour les développeurs et les workflows techniques.

Quand vous dictez un prompt pour Claude Code dans le terminal, la transcription IA de Murmur reconnaît avec précision :

Les termes techniques (TypeScript, PostgreSQL, WebSocket, REST API)
Les chemins de fichiers et conventions de nommage (camelCase, kebab-case)
Les concepts de programmation (injection de dépendances, middleware, type guard)
Les noms de commandes (npm, git, docker-compose)

Cette précision signifie moins de corrections et une plus grande confiance que votre prompt dicté sera correctement transcrit, afin que votre agent IA reçoive les bonnes instructions du premier coup.

La vision : le développement conversationnel

Où cela nous mène-t-il ? Voici à quoi ressemble le développement quand la voix et les agents arrivent à maturité :

Planification matinale

Vous ouvrez votre terminal et parlez à Claude Code :

« Bonjour. Reprenons là où on s'est arrêtés hier. La fonctionnalité de préférences utilisateur est à environ 70 %. Il nous reste à ajouter l'endpoint API des préférences, le connecter à la page de paramètres du frontend, et écrire les tests d'intégration. Commençons par l'endpoint API. »

L'agent lit votre codebase, voit le travail existant et commence à implémenter.

Affinage continu

Pendant que l'agent travaille, vous relisez et redirigez de manière conversationnelle :

« Ça a l'air bien, mais utilise Redis pour le cache des préférences au lieu du store en mémoire. Notre client Redis est dans lib/redis et les autres services l'utilisent déjà. »

« En fait, ajoute aussi un hook d'invalidation de cache sur l'endpoint PUT, pour que quand un utilisateur met à jour ses préférences, le cache soit vidé immédiatement. »

Code review vocale

Quand un collègue ouvre une PR, vous relisez en dictant vos commentaires :

« L'implémentation a l'air solide mais je suis préoccupé par la requête N+1 à la ligne 45 du repository utilisateur. Pour une liste de 100 utilisateurs, ça déclenche 100 requêtes de préférences séparées. Peux-tu regrouper ça en une seule requête avec une clause WHERE IN ? »

La documentation comme conversation

Au lieu de redouter la documentation, vous expliquez simplement ce que fait le module :

« Ce module gère la gestion des préférences utilisateur. Il expose une API REST avec des endpoints GET et PUT, stocke les préférences dans PostgreSQL avec une couche de cache Redis, et publie des événements de modification sur notre file de messages pour que les autres services puissent réagir. Le TTL du cache est de 5 minutes et s'invalide à l'écriture. »

Votre outil de dictée vocale transcrit cela en documentation propre. C'est fait.

Le chemin pratique pour y arriver

Pas besoin d'attendre le futur. Vous pouvez commencer à utiliser la voix avec les agents IA dès aujourd'hui :

Commencez petit

Téléchargez Murmur et configurez le raccourci
Utilisez la voix uniquement pour les prompts IA dans un premier temps (chat Cursor, Claude Code)
Observez comment vos prompts deviennent plus longs et plus détaillés
Observez comment la sortie de l'IA s'améliore

Créez l'habitude

Au bout d'une semaine de prompts vocaux, étendez-la à :

Les messages de commit Git
Les descriptions et commentaires de PR
La documentation et les fichiers README
Les messages Slack sur des sujets techniques

Passez au mode hybride

Le workflow optimal n'est pas 100 % vocal. C'est la voix pour le langage naturel, le clavier pour le code et la navigation. Trouvez votre équilibre.

Ce que cela signifie pour les développeurs

Le virage vers le code agentique change ce que signifie être un développeur productif. Les compétences techniques comptent toujours. Vous devez toujours comprendre l'architecture, relire le code et prendre des décisions de conception. Mais le goulot d'étranglement de l'implémentation passe de « est-ce que je sais écrire le code ? » à « est-ce que je sais décrire ce que je veux avec assez de clarté ? »

Les développeurs capables de formuler des exigences claires et détaillées pour les agents IA seront considérablement plus productifs que ceux qui tapent des prompts laconiques et itèrent.

La voix est l'outil qui rend la formulation sans effort. Il ne s'agit pas de remplacer votre clavier. Il s'agit de libérer la part du développement qui relève déjà de la communication.

Conclusion

Le code agentique est là. Les outils ne feront que gagner en capacité. La question n'est pas de savoir si les agents IA feront une plus grande part du travail d'implémentation, mais quand. Et à mesure que cela se produira, votre capacité à communiquer clairement et rapidement avec ces agents deviendra votre principal levier.

La dictée vocale avec des outils comme Murmur n'est pas un « nice-to-have » dans cet avenir. C'est un outil de productivité essentiel, l'interface entre votre expertise et les agents qui concrétisent votre vision.

Les développeurs qui prospéreront dans l'ère agentique seront ceux qui savent penser clairement et s'exprimer efficacement. Commencez à développer ce muscle dès maintenant.