Pillar page

Desarrollo de software con IA

Un proceso comprobado para automatizar el desarrollo de software con un equipo de agentes IA — desde el análisis de requisitos, pasando por la codificación y las pruebas multinivel (unit, integration, E2E, seguridad, rendimiento), hasta el despliegue en producción con un audit trail completo.

Operamos un equipo de agentes IA especializados que participa en cada etapa del ciclo de vida del desarrollo de software — desde el análisis de requisitos, pasando por el diseño de arquitectura, la codificación y las pruebas multinivel, hasta el code review, la documentación y el despliegue con un audit trail completo.

Así es como construimos nuestros propios productos de ESKOM AI — la plataforma multi-agente HybridCrew, el sistema de auditorías Compliance, el microservicio KRS+CRBR y una cartera de integraciones. Aplicamos el mismo proceso en proyectos de clientes: tanto en microservicios nuevos como en la modernización de sistemas legacy.

Este artículo describe cómo funciona en la práctica: qué tareas asumen los agentes, cuáles permanecen en manos humanas, qué pruebas ejecutamos y por qué este proceso es repetible entre distintos tipos de proyectos.

¿Por qué automatizar el desarrollo de software?

Un ciclo clásico de desarrollo de software (análisis → código → pruebas → review → despliegue) en un equipo maduro suele llevar 2-4 semanas para una funcionalidad de tamaño medio. La mayor parte de ese tiempo se invierte en tareas repetitivas: escribir boilerplate, generar tests unitarios, revisar cambios, actualizar documentación, generar migraciones de base de datos. Todas susceptibles de automatización.

El objetivo de nuestro proceso es simple: dos o tres personas trabajando con agentes IA entregan el valor de un equipo de 8-10 personas — sin desgaste, con mayor calidad (más pruebas, mejor code review, documentación completa) y un menor time-to-market.

No se trata de „la IA reemplazará a los desarrolladores". Se trata de „los desarrolladores con IA reemplazarán a los desarrolladores sin IA". Los ingenieros experimentados siguen siendo imprescindibles — diseñan la arquitectura, toman decisiones estratégicas, revisan cambios complejos. Los agentes IA asumen la rutina.

Las seis etapas del proceso

El pipeline desde los requisitos hasta producción. Cada etapa la ejecutan agentes IA especializados, mientras que las personas supervisan y aprueban las decisiones clave.

1

Análisis de requisitos y arquitectura

Los agentes IA analizan la documentación de negocio, las conversaciones con el cliente (a partir de transcripciones) y el código existente. Proponen una arquitectura de microservicios, un esquema de base de datos, la lista de endpoints y el modelo de permisos. Una persona (CTO/arquitecto) revisa y aprueba la propuesta antes de empezar a codificar.

2

Escritura de código (TDD)

Primero los tests, después la implementación. Un agente backend escribe APIs en FastAPI/Express, un agente frontend escribe componentes React. Cada cambio = un pull request separado con un commit limpio. Los estándares de codificación (Black, ESLint, Prettier) se aplican automáticamente.

3

Pruebas multinivel

Unit (pytest, Jest), integration (testcontainers con PostgreSQL real), E2E (Playwright), UI snapshot, seguridad (OWASP, gitleaks, bandit), rendimiento (k6/locust), accesibilidad (axe). Cada PR ejecuta el pipeline completo — un test en rojo bloquea el merge.

4

Code review por IA

Un agente SecurityReviewer escanea según OWASP Top 10, un agente QualityReviewer revisa legibilidad y patrones, un agente ArchitectureReviewer verifica la consistencia con el resto del sistema. Los casos límite se escalan a humanos.

5

Documentación y CHANGELOG

Cada cambio de lógica = bump de versión + entrada en CHANGELOG.md en formato Keep a Changelog. La documentación de API (OpenAPI/Swagger) se genera automáticamente. CLAUDE.md se actualiza tras cada sesión con las nuevas lecciones aprendidas.

6

Despliegue con Change Request

El despliegue siempre pasa por Git (NUNCA scp directo). Primero el entorno de pruebas con verificación Playwright, después producción tras la aprobación del CR. El script de despliegue incluye un plan de rollback (<5 min) y health checks.

¿Qué gana la empresa?

Miles de pruebas automatizadas

Cada proyecto en producción tiene desde varios miles hasta decenas de miles de tests — unit, integration, E2E, seguridad, rendimiento. Las regresiones se detectan en CI antes de que lleguen al usuario.

Audit trail completo

Cada cambio en el código, la base de datos o la configuración queda registrado: Git, audit log en la base, CHANGELOG, Change Request. Cumple los requisitos de ISO 27001, EU AI Act y RGPD.

Escalabilidad del equipo

Dos o tres personas con agentes IA entregan el valor de un equipo de 8-10 personas. Sin desgaste, con mayor calidad y plazos más cortos.

Escalado a modelos más potentes

El enrutado LLM elige el modelo adecuado para cada tarea: cambios menores — Ollama local (coste 0), arquitectura compleja — Claude Opus. Optimización de coste y calidad en uno.

Repetibilidad y estándares

Cada proyecto sigue los mismos estándares: feature branch workflow, squash merge, Conventional Commits, CHANGELOG, EU AI Act, RGPD. Un desarrollador nuevo entiende la estructura el primer día.

Seguridad por defecto

Gitleaks en pre-commit + CI, secretos en HashiCorp Vault, repositorios privados, SSO Keycloak, Tailscale VPN para los servicios internos. Ningún compromiso frente a la velocidad.

Pruebas multinivel — el fundamento de la calidad

Cada cambio en el código de producción pasa por un pipeline de pruebas completo. Sin excepciones — incluso corregir una errata en un comentario dispara la CI, porque el pipeline de pruebas está forzado por un Git hook, no por una decisión política del desarrollador.

  • Pruebas unitarias (unit): pytest, Jest, vitest. Cubren funciones y clases individuales. Cobertura >80% en el código crítico.
  • Pruebas de integración: testcontainers con instancias reales de PostgreSQL, Redis, Vault. Mocks únicamente para APIs externas de terceros.
  • Pruebas E2E (end-to-end): Playwright en Firefox (por defecto), Chrome (opcional). Simulan rutas completas de usuario: login → acción → verificación.
  • Pruebas de UI (snapshot, accesibilidad): Playwright + axe-core. WCAG 2.0 AA como base, Lighthouse 100/100/100/100 como objetivo.
  • Pruebas de seguridad: OWASP Top 10 (semgrep, bandit, eslint-plugin-security), gitleaks (escaneo de secretos en pre-commit y CI), trivy (escaneo de imágenes Docker).
  • Pruebas de rendimiento: k6 o locust para tests de carga, verificación de p95/p99 response time bajo presión.
  • Pruebas de regresión: la suite completa se ejecuta antes de cada despliegue a producción. Cada bug reportado se convierte en una prueba de regresión.
  • Pruebas smoke: un conjunto mínimo de 5-10 tests ejecutados tras el despliegue en producción (¿realmente arrancó la aplicación?).
  • Pruebas de aceptación: tests de negocio (Cucumber/Gherkin) que confirman que el requisito se ha cumplido.

Un test en rojo = merge bloqueado. Sin excepciones. Si un test es „flaky" (inestable), un agente diagnóstico analiza la causa raíz y arregla el test o el código, pero nunca elimina el test sin una decisión humana.

Casos de uso típicos

Los patrones que aplicamos con más frecuencia. Cada uno trae su propio conjunto de agentes, herramientas y plantillas. Time-to-value medido en semanas, no en meses.

Modernización de sistemas legacy

  • Antigua aplicación monolítica (PHP/.NET, sin tests, difícil de mantener)
  • Los agentes descomponen el monolito en microservicios (incremental, sin downtime)
  • Generan tests de caracterización (capturan el comportamiento actual) antes del refactor
  • Migración de datos con audit trail completo y plan de rollback

Nuevo microservicio enterprise

  • Especificación de entrada (ticket de Jira, PRD, transcripción de reunión)
  • Arquitectura → código → tests → review → despliegue en 2-3 semanas
  • Integración con SSO existente (Keycloak), audit log, monitorización
  • Cumplimiento total con EU AI Act y RGPD desde el primer día

Integración de sistemas

  • Conexión de ERP, CRM, KRS, Microsoft Graph, IBM, Cisco, socios externos
  • Los agentes escriben adaptadores, mapeos, retry/backoff, idempotencia
  • Pruebas de integración sobre endpoints reales (sandbox APIs)
  • Monitorización (Prometheus + Grafana) y alertas (Sentry) cableadas automáticamente

Plataformas multi-tenant

  • SaaS multi-cliente con aislamiento total de datos (esquema por tenant o row-level security)
  • Onboarding automatizado del cliente (provisioning de Keycloak, base de datos, roles)
  • Billing basado en SSO Billing SDK (token usage tracking, fail-open)
  • Compliance: RGPD, ISO 27001, EU AI Act listos para auditoría

Comparativa: equipo clásico vs. proceso con IA

AspectoEquipo clásico (8-10 personas)Equipo con agentes IA (2-3 personas)
Time-to-market (funcionalidad media)2-4 semanas3-7 días
Cobertura de tests40-60% (si el equipo tiene tiempo)>80% por defecto (tests generados junto al código)
Code review1 persona, 30-60 min de media3 agentes (security, quality, architecture) + humano para cambios complejos
DocumentaciónFrecuentemente incompleta, „añadida después"Generada junto al código (OpenAPI, README, CHANGELOG)
Audit trailHistorial de GitGit + audit log en base + CHANGELOG + Change Request
EscaladoLineal (más personas = mayor coste de comunicación)No lineal (más agentes = mismo número de supervisores)
Compliance (EU AI Act, RGPD, ISO 27001)Frecuentemente auditoría externa a posterioriIncorporado al proceso desde el primer día

Preguntas frecuentes

¿Qué es el desarrollo de software automatizado con IA?
Es un proceso en el que agentes IA especializados participan en cada etapa del ciclo de vida del desarrollo de software: desde el análisis de requisitos, pasando por el diseño de arquitectura, la codificación, las pruebas automáticas (unit, integration, E2E, seguridad, rendimiento, regresión), hasta el code review y el despliegue en producción. Las personas siguen supervisando el proceso y toman las decisiones clave, pero las tareas rutinarias (escribir código, generar tests, refactorizar, documentar) las ejecutan los agentes IA conservando los estándares de calidad acordados.
¿En qué se diferencia este proceso de la programación clásica con Copilot?
Copilot es autocompletado — ayuda a escribir líneas de código aisladas. El desarrollo de software con IA es orquestación completa: un agente planifica la arquitectura, otro escribe el código, un tercero escribe los tests, un cuarto hace code review, un quinto despliega. Cada uno tiene su propia especialización, memoria episódica (aprende de proyectos anteriores), herramientas y contexto. Resultado: una escala de automatización mucho mayor que con un solo Copilot, manteniendo los estándares enterprise (tests, seguridad, audit trail).
¿Qué tipos de pruebas ejecuta este proceso?
Todos los tipos de pruebas que utilizan los equipos de desarrollo maduros: unitarias (unit), integración, end-to-end (E2E), UI (Playwright), seguridad (OWASP Top 10, gitleaks), rendimiento (load), regresión, smoke y aceptación. Las pruebas se escriben antes del código o en paralelo (TDD), y cada cambio debe superar el pipeline completo.
¿La IA despliega código en producción por sí sola?
No — no de forma automática. Los despliegues a producción requieren un Change Request (CR) aprobado y una decisión humana. Los agentes IA preparan la documentación de los cambios, ejecutan tests de regresión, generan scripts de despliegue con plan de rollback, pero el lanzamiento final en producción requiere la aprobación del operador. Esta regla es deliberada — minimiza el riesgo de consecuencias inesperadas y preserva un audit trail completo.
¿Funciona este proceso para proyectos enterprise?
Sí. Lo utilizamos en nuestros propios productos, incluida la plataforma multi-agente HybridCrew, la plataforma de consulting con SSO, microservicios respaldados por PostgreSQL e integraciones con sistemas externos (KRS, MS Graph, IBM, Keycloak). Cada proyecto tiene su propio pipeline CI/CD, entornos dev/test/prod, monitorización y audit log. El proceso escala desde un único microservicio hasta una plataforma con múltiples contenedores.
¿Cuánto tarda en implantarse este proceso en nuestra empresa?
Depende del contexto. Para un equipo pequeño (1-3 desarrolladores), la integración con el repositorio existente y el pipeline CI/CD lleva habitualmente 2-4 semanas: auditoría, configuración de agentes, alineación con los estándares de codificación, formación. Para organizaciones mayores, los proyectos piloto (un equipo, un microservicio) duran 6-8 semanas, seguidos de una expansión gradual a más equipos.
¿Qué pasa con la seguridad del código fuente?
Los repositorios del cliente nunca salen hacia servicios externos sin consentimiento explícito. Por defecto, todo el proceso (agentes IA, modelos LLM, base vectorial, audit log) corre en la infraestructura del cliente o en la nube privada de ESKOM AI con aislamiento total. Los secretos se gestionan con HashiCorp Vault, el código se escanea con gitleaks antes de cada commit y todos los repositorios son privados por defecto.
¿Vais a sustituir a nuestro equipo de desarrollo?
No. Los desarrolladores con experiencia siguen siendo imprescindibles — diseñan la arquitectura, toman decisiones, revisan cambios complejos, resuelven problemas atípicos. Los agentes IA asumen las tareas repetitivas y susceptibles de automatizar: escribir boilerplate, generar tests, documentación, refactor, code review de primer nivel. Objetivo: dos o tres personas con IA entregan el valor de un equipo de 8-10 personas — sin desgaste, con mayor calidad y un audit trail completo.
¿Cuánto cuesta el desarrollo de software con IA?
El precio es siempre específico del proyecto y depende de la escala, el modelo de facturación (suscripción a la plataforma vs. proyecto dedicado), las integraciones requeridas y si los agentes corren sobre modelos LLM locales (Ollama en la GPU del cliente — menor coste operativo) o en la nube (Anthropic, OpenAI — mayor flexibilidad). En los pilotos perseguimos el retorno de la inversión durante el primer trimestre tras el lanzamiento completo.
¿Cuáles son las señales típicas de que una empresa está lista para este proceso?
Los mejores resultados los obtienen los equipos que ya cuentan con: repositorio bajo control de versiones (Git), estándares de codificación definidos, un pipeline básico CI/CD, requisitos claramente documentados (Jira/Linear/herramienta propia) y cultura de code review. La falta de alguno de estos elementos no bloquea el despliegue — empezamos entonces con una auditoría y la preparación de los cimientos. Las organizaciones menos maduras son las que carecen de control de versiones o tienen código en producción que nadie testea.

¿Listos para un piloto?

Empezamos con una auditoría del proceso actual y un piloto en un microservicio seleccionado. Primeros resultados visibles en 2-4 semanas. Sin contratos a largo plazo.