Pillar page
Desarrollo de software con IA
Un proceso comprobado para automatizar el desarrollo de software con un equipo de agentes IA — desde el análisis de requisitos, pasando por la codificación y las pruebas multinivel (unit, integration, E2E, seguridad, rendimiento), hasta el despliegue en producción con un audit trail completo.
Operamos un equipo de agentes IA especializados que participa en cada etapa del ciclo de vida del desarrollo de software — desde el análisis de requisitos, pasando por el diseño de arquitectura, la codificación y las pruebas multinivel, hasta el code review, la documentación y el despliegue con un audit trail completo.
Así es como construimos nuestros propios productos de ESKOM AI — la plataforma multi-agente HybridCrew, el sistema de auditorías Compliance, el microservicio KRS+CRBR y una cartera de integraciones. Aplicamos el mismo proceso en proyectos de clientes: tanto en microservicios nuevos como en la modernización de sistemas legacy.
Este artículo describe cómo funciona en la práctica: qué tareas asumen los agentes, cuáles permanecen en manos humanas, qué pruebas ejecutamos y por qué este proceso es repetible entre distintos tipos de proyectos.
¿Por qué automatizar el desarrollo de software?
Un ciclo clásico de desarrollo de software (análisis → código → pruebas → review → despliegue) en un equipo maduro suele llevar 2-4 semanas para una funcionalidad de tamaño medio. La mayor parte de ese tiempo se invierte en tareas repetitivas: escribir boilerplate, generar tests unitarios, revisar cambios, actualizar documentación, generar migraciones de base de datos. Todas susceptibles de automatización.
El objetivo de nuestro proceso es simple: dos o tres personas trabajando con agentes IA entregan el valor de un equipo de 8-10 personas — sin desgaste, con mayor calidad (más pruebas, mejor code review, documentación completa) y un menor time-to-market.
No se trata de „la IA reemplazará a los desarrolladores". Se trata de „los desarrolladores con IA reemplazarán a los desarrolladores sin IA". Los ingenieros experimentados siguen siendo imprescindibles — diseñan la arquitectura, toman decisiones estratégicas, revisan cambios complejos. Los agentes IA asumen la rutina.
Las seis etapas del proceso
El pipeline desde los requisitos hasta producción. Cada etapa la ejecutan agentes IA especializados, mientras que las personas supervisan y aprueban las decisiones clave.
Análisis de requisitos y arquitectura
Los agentes IA analizan la documentación de negocio, las conversaciones con el cliente (a partir de transcripciones) y el código existente. Proponen una arquitectura de microservicios, un esquema de base de datos, la lista de endpoints y el modelo de permisos. Una persona (CTO/arquitecto) revisa y aprueba la propuesta antes de empezar a codificar.
Escritura de código (TDD)
Primero los tests, después la implementación. Un agente backend escribe APIs en FastAPI/Express, un agente frontend escribe componentes React. Cada cambio = un pull request separado con un commit limpio. Los estándares de codificación (Black, ESLint, Prettier) se aplican automáticamente.
Pruebas multinivel
Unit (pytest, Jest), integration (testcontainers con PostgreSQL real), E2E (Playwright), UI snapshot, seguridad (OWASP, gitleaks, bandit), rendimiento (k6/locust), accesibilidad (axe). Cada PR ejecuta el pipeline completo — un test en rojo bloquea el merge.
Code review por IA
Un agente SecurityReviewer escanea según OWASP Top 10, un agente QualityReviewer revisa legibilidad y patrones, un agente ArchitectureReviewer verifica la consistencia con el resto del sistema. Los casos límite se escalan a humanos.
Documentación y CHANGELOG
Cada cambio de lógica = bump de versión + entrada en CHANGELOG.md en formato Keep a Changelog. La documentación de API (OpenAPI/Swagger) se genera automáticamente. CLAUDE.md se actualiza tras cada sesión con las nuevas lecciones aprendidas.
Despliegue con Change Request
El despliegue siempre pasa por Git (NUNCA scp directo). Primero el entorno de pruebas con verificación Playwright, después producción tras la aprobación del CR. El script de despliegue incluye un plan de rollback (<5 min) y health checks.
¿Qué gana la empresa?
Miles de pruebas automatizadas
Cada proyecto en producción tiene desde varios miles hasta decenas de miles de tests — unit, integration, E2E, seguridad, rendimiento. Las regresiones se detectan en CI antes de que lleguen al usuario.
Audit trail completo
Cada cambio en el código, la base de datos o la configuración queda registrado: Git, audit log en la base, CHANGELOG, Change Request. Cumple los requisitos de ISO 27001, EU AI Act y RGPD.
Escalabilidad del equipo
Dos o tres personas con agentes IA entregan el valor de un equipo de 8-10 personas. Sin desgaste, con mayor calidad y plazos más cortos.
Escalado a modelos más potentes
El enrutado LLM elige el modelo adecuado para cada tarea: cambios menores — Ollama local (coste 0), arquitectura compleja — Claude Opus. Optimización de coste y calidad en uno.
Repetibilidad y estándares
Cada proyecto sigue los mismos estándares: feature branch workflow, squash merge, Conventional Commits, CHANGELOG, EU AI Act, RGPD. Un desarrollador nuevo entiende la estructura el primer día.
Seguridad por defecto
Gitleaks en pre-commit + CI, secretos en HashiCorp Vault, repositorios privados, SSO Keycloak, Tailscale VPN para los servicios internos. Ningún compromiso frente a la velocidad.
Pruebas multinivel — el fundamento de la calidad
Cada cambio en el código de producción pasa por un pipeline de pruebas completo. Sin excepciones — incluso corregir una errata en un comentario dispara la CI, porque el pipeline de pruebas está forzado por un Git hook, no por una decisión política del desarrollador.
- Pruebas unitarias (unit): pytest, Jest, vitest. Cubren funciones y clases individuales. Cobertura >80% en el código crítico.
- Pruebas de integración: testcontainers con instancias reales de PostgreSQL, Redis, Vault. Mocks únicamente para APIs externas de terceros.
- Pruebas E2E (end-to-end): Playwright en Firefox (por defecto), Chrome (opcional). Simulan rutas completas de usuario: login → acción → verificación.
- Pruebas de UI (snapshot, accesibilidad): Playwright + axe-core. WCAG 2.0 AA como base, Lighthouse 100/100/100/100 como objetivo.
- Pruebas de seguridad: OWASP Top 10 (semgrep, bandit, eslint-plugin-security), gitleaks (escaneo de secretos en pre-commit y CI), trivy (escaneo de imágenes Docker).
- Pruebas de rendimiento: k6 o locust para tests de carga, verificación de p95/p99 response time bajo presión.
- Pruebas de regresión: la suite completa se ejecuta antes de cada despliegue a producción. Cada bug reportado se convierte en una prueba de regresión.
- Pruebas smoke: un conjunto mínimo de 5-10 tests ejecutados tras el despliegue en producción (¿realmente arrancó la aplicación?).
- Pruebas de aceptación: tests de negocio (Cucumber/Gherkin) que confirman que el requisito se ha cumplido.
Un test en rojo = merge bloqueado. Sin excepciones. Si un test es „flaky" (inestable), un agente diagnóstico analiza la causa raíz y arregla el test o el código, pero nunca elimina el test sin una decisión humana.
Casos de uso típicos
Los patrones que aplicamos con más frecuencia. Cada uno trae su propio conjunto de agentes, herramientas y plantillas. Time-to-value medido en semanas, no en meses.
Modernización de sistemas legacy
- •Antigua aplicación monolítica (PHP/.NET, sin tests, difícil de mantener)
- •Los agentes descomponen el monolito en microservicios (incremental, sin downtime)
- •Generan tests de caracterización (capturan el comportamiento actual) antes del refactor
- •Migración de datos con audit trail completo y plan de rollback
Nuevo microservicio enterprise
- •Especificación de entrada (ticket de Jira, PRD, transcripción de reunión)
- •Arquitectura → código → tests → review → despliegue en 2-3 semanas
- •Integración con SSO existente (Keycloak), audit log, monitorización
- •Cumplimiento total con EU AI Act y RGPD desde el primer día
Integración de sistemas
- •Conexión de ERP, CRM, KRS, Microsoft Graph, IBM, Cisco, socios externos
- •Los agentes escriben adaptadores, mapeos, retry/backoff, idempotencia
- •Pruebas de integración sobre endpoints reales (sandbox APIs)
- •Monitorización (Prometheus + Grafana) y alertas (Sentry) cableadas automáticamente
Plataformas multi-tenant
- •SaaS multi-cliente con aislamiento total de datos (esquema por tenant o row-level security)
- •Onboarding automatizado del cliente (provisioning de Keycloak, base de datos, roles)
- •Billing basado en SSO Billing SDK (token usage tracking, fail-open)
- •Compliance: RGPD, ISO 27001, EU AI Act listos para auditoría
Comparativa: equipo clásico vs. proceso con IA
| Aspecto | Equipo clásico (8-10 personas) | Equipo con agentes IA (2-3 personas) |
|---|---|---|
| Time-to-market (funcionalidad media) | 2-4 semanas | 3-7 días |
| Cobertura de tests | 40-60% (si el equipo tiene tiempo) | >80% por defecto (tests generados junto al código) |
| Code review | 1 persona, 30-60 min de media | 3 agentes (security, quality, architecture) + humano para cambios complejos |
| Documentación | Frecuentemente incompleta, „añadida después" | Generada junto al código (OpenAPI, README, CHANGELOG) |
| Audit trail | Historial de Git | Git + audit log en base + CHANGELOG + Change Request |
| Escalado | Lineal (más personas = mayor coste de comunicación) | No lineal (más agentes = mismo número de supervisores) |
| Compliance (EU AI Act, RGPD, ISO 27001) | Frecuentemente auditoría externa a posteriori | Incorporado al proceso desde el primer día |
Preguntas frecuentes
¿Qué es el desarrollo de software automatizado con IA?
¿En qué se diferencia este proceso de la programación clásica con Copilot?
¿Qué tipos de pruebas ejecuta este proceso?
¿La IA despliega código en producción por sí sola?
¿Funciona este proceso para proyectos enterprise?
¿Cuánto tarda en implantarse este proceso en nuestra empresa?
¿Qué pasa con la seguridad del código fuente?
¿Vais a sustituir a nuestro equipo de desarrollo?
¿Cuánto cuesta el desarrollo de software con IA?
¿Cuáles son las señales típicas de que una empresa está lista para este proceso?
¿Listos para un piloto?
Empezamos con una auditoría del proceso actual y un piloto en un microservicio seleccionado. Primeros resultados visibles en 2-4 semanas. Sin contratos a largo plazo.