Pillar page
Desenvolvimento de software com IA
Um processo testado de automatização do desenvolvimento de software com uma equipa de agentes de IA — desde a análise de requisitos, passando pela codificação e testes em múltiplas camadas (unidade, integração, E2E, segurança, desempenho), até à implementação em produção com um audit trail completo.
Operamos uma equipa de agentes de IA especializados que participa em cada etapa do ciclo de desenvolvimento de software — desde a análise de requisitos, passando pelo desenho da arquitetura, codificação e testes em múltiplas camadas, até à revisão de código, documentação e implementação com um audit trail completo.
É assim que construímos os nossos próprios produtos ESKOM AI — a plataforma multi-agente HybridCrew, o sistema de auditorias Compliance, o microsserviço KRS+CRBR e um conjunto de integrações. Aplicamos o mesmo processo em projetos para clientes: tanto na construção de novos microsserviços como na modernização de sistemas legacy.
Este artigo descreve como funciona na prática: que tarefas os agentes assumem, quais permanecem do lado humano, que testes executamos e porque este processo é repetível em diferentes tipos de projeto.
Porquê automatizar o desenvolvimento?
Um ciclo clássico de desenvolvimento de software (análise → código → testes → revisão → deploy) numa equipa madura demora tipicamente 2-4 semanas para uma funcionalidade de tamanho médio. A maior parte desse tempo é dedicado a tarefas repetitivas: escrever boilerplate, gerar testes unitários, rever alterações, atualizar documentação, gerar migrações de base de dados. Todas suscetíveis de automatização.
O objetivo do nosso processo é simples: duas ou três pessoas a trabalhar com agentes de IA entregam o valor de uma equipa de 8-10 pessoas — sem burnout, com maior qualidade (mais testes, melhor revisão de código, documentação completa) e tempo de colocação no mercado mais curto.
Isto não é „a IA vai substituir os programadores". É „os programadores com IA vão substituir os programadores sem IA". Os engenheiros experientes continuam a ser essenciais — desenham a arquitetura, tomam decisões estratégicas, revêem alterações complexas. Os agentes assumem a rotina.
Seis etapas do processo
Pipeline desde os requisitos até à produção. Cada etapa é executada por agentes de IA especializados, enquanto os humanos supervisionam e aprovam as decisões-chave.
Análise de requisitos e arquitetura
Os agentes de IA analisam documentação de negócio, conversas com o cliente (a partir de transcrições) e código existente. Propõem uma arquitetura de microsserviços, esquema da base de dados, lista de endpoints e modelo de permissões. Um humano (CTO/arquiteto) revê e aprova a proposta antes do início da codificação.
Escrita de código (TDD)
Primeiro os testes, depois a implementação. Um agente backend escreve APIs em FastAPI/Express, um agente frontend escreve componentes React. Cada alteração é um pull request separado com uma mensagem de commit clara. Os padrões de codificação (Black, ESLint, Prettier) são aplicados automaticamente.
Testes em múltiplas camadas
Unidade (pytest, Jest), integração (testcontainers com PostgreSQL real), E2E (Playwright), snapshot de UI, segurança (OWASP, gitleaks, bandit), desempenho (k6/locust), acessibilidade (axe). Cada PR executa o pipeline completo — um teste falhado bloqueia o merge.
Revisão de código por IA
Um agente SecurityReviewer procura problemas do OWASP Top 10, um agente QualityReviewer verifica legibilidade e padrões, um agente ArchitectureReviewer valida a consistência com o resto do sistema. Os casos limite são escalados para um humano.
Documentação e CHANGELOG
Cada alteração de lógica = incremento de versão + entrada no CHANGELOG.md no formato Keep a Changelog. A documentação da API (OpenAPI/Swagger) é gerada automaticamente. O CLAUDE.md é atualizado após cada sessão com novas lições aprendidas.
Implementação com Change Request
O deploy passa sempre por Git (NUNCA scp direto). Primeiro o ambiente de teste com verificação Playwright, só depois produção após aprovação do CR. O script de deploy inclui um plano de rollback (<5 min) e health checks.
O que ganha a empresa?
Milhares de testes automatizados
Cada projeto de produção tem de vários milhares a dezenas de milhares de testes — unidade, integração, E2E, segurança, desempenho. As regressões são apanhadas no CI antes de chegarem ao utilizador.
Audit trail completo
Cada alteração no código, base de dados ou configuração é registada: Git, audit log na base de dados, CHANGELOG, Change Request. Cumpre requisitos da ISO 27001, do EU AI Act e do RGPD.
Escalabilidade da equipa
Duas ou três pessoas com agentes de IA entregam o valor de uma equipa de 8-10 pessoas. Sem burnout, com maior qualidade e prazos mais curtos.
Escalonamento para modelos mais fortes
O routing de LLM escolhe o modelo certo para cada tarefa: alterações simples — Ollama local (custo zero), arquitetura complexa — Claude Opus. Otimização de custo e qualidade num só.
Repetibilidade e padrões
Cada projeto segue os mesmos padrões: feature branch workflow, squash merge, Conventional Commits, CHANGELOG, EU AI Act, RGPD. Um novo programador percebe a estrutura no primeiro dia.
Segurança por defeito
Gitleaks no pre-commit + CI, segredos no HashiCorp Vault, repositórios privados, SSO Keycloak, VPN Tailscale para serviços internos. Sem compromissos em troca de velocidade.
Testes em múltiplas camadas — o fundamento da qualidade
Cada alteração no código de produção passa por um pipeline completo de testes. Sem exceções — mesmo corrigir uma gralha num comentário aciona o CI, porque o pipeline de testes é imposto por um Git hook, não por uma decisão política do programador.
- Testes unitários: pytest, Jest, vitest. Cobrem funções e classes individuais. Cobertura >80% em código crítico.
- Testes de integração: testcontainers com instâncias reais de PostgreSQL, Redis, Vault. Mocks apenas para APIs externas de terceiros.
- Testes end-to-end (E2E): Playwright em Firefox (por defeito), Chrome (opcional). Simulam percursos completos do utilizador: login → ação → verificação.
- Testes de UI (snapshot, acessibilidade): Playwright + axe-core. WCAG 2.0 AA como baseline, Lighthouse 100/100/100/100 como objetivo.
- Testes de segurança: OWASP Top 10 (semgrep, bandit, eslint-plugin-security), gitleaks (deteção de segredos no pre-commit e CI), trivy (análise de imagens Docker).
- Testes de desempenho: k6 ou locust para testes de carga, verificando tempos de resposta p95/p99 sob stress.
- Testes de regressão: a suite completa corre antes de cada deploy de produção. Cada bug reportado torna-se um teste de regressão.
- Testes smoke: um conjunto mínimo de 5-10 testes executados após o deploy de produção (se a aplicação chegou efetivamente a arrancar).
- Testes de aceitação: testes de negócio (Cucumber/Gherkin) que confirmam o cumprimento do requisito.
Teste falhado = merge bloqueado. Sem exceções. Se um teste é „flaky" (instável), um agente de diagnóstico analisa a causa-raiz e corrige o teste ou o código, mas nunca remove o teste sem uma decisão humana.
Casos de uso típicos
Os padrões que aplicamos com maior frequência. Cada um tem o seu conjunto de agentes, ferramentas e templates. Tempo até valor medido em semanas, não em meses.
Modernização de sistema legacy
- •Aplicação monolítica antiga (PHP/.NET, sem testes, difícil de manter)
- •Os agentes decompõem o monólito em microsserviços (incremental, sem downtime)
- •Geram testes de caracterização (capturando o comportamento atual) antes do refactor
- •Migração de dados com audit trail completo e plano de rollback
Novo microsserviço enterprise
- •Especificação à entrada (ticket Jira, PRD, transcrição de reunião)
- •Arquitetura → código → testes → revisão → deploy em 2-3 semanas
- •Integração com SSO existente (Keycloak), audit log, monitorização
- •Total conformidade com EU AI Act e RGPD desde o primeiro dia
Integração de sistemas
- •Ligação de ERP, CRM, KRS, Microsoft Graph, IBM, Cisco, parceiros externos
- •Os agentes escrevem adaptadores, mapeamentos, retry/backoff, idempotência
- •Testes de integração em endpoints reais (APIs sandbox)
- •Monitorização (Prometheus + Grafana) e alertas (Sentry) ligados automaticamente
Plataformas multi-tenant
- •SaaS multi-cliente com isolamento total de dados (esquema por tenant ou row-level security)
- •Onboarding automatizado de clientes (provisionamento Keycloak, base de dados, papéis)
- •Faturação baseada no SSO Billing SDK (tracking de uso de tokens, fail-open)
- •Conformidade: RGPD, ISO 27001, EU AI Act prontos para auditoria
Comparação: equipa clássica vs. processo com IA
| Aspeto | Equipa clássica (8-10 pessoas) | Equipa com agentes de IA (2-3 pessoas) |
|---|---|---|
| Tempo de colocação no mercado (funcionalidade média) | 2-4 semanas | 3-7 dias |
| Cobertura de testes | 40-60% (quando a equipa tem tempo) | >80% por defeito (testes gerados em paralelo com o código) |
| Revisão de código | 1 pessoa, em média 30-60 min | 3 agentes (segurança, qualidade, arquitetura) + humano para alterações complexas |
| Documentação | Frequentemente incompleta, „acrescentada depois" | Gerada em paralelo com o código (OpenAPI, README, CHANGELOG) |
| Audit trail | Histórico Git | Git + audit log na base de dados + CHANGELOG + Change Request |
| Escalabilidade | Linear (mais pessoas = maior custo de comunicação) | Não-linear (mais agentes = o mesmo número de pessoas a supervisionar) |
| Conformidade (EU AI Act, RGPD, ISO 27001) | Frequentemente auditoria externa a posteriori | Incorporada no processo desde o primeiro dia |
Perguntas frequentes
O que é o desenvolvimento de software automatizado com IA?
Em que se distingue este processo da programação clássica com o Copilot?
Que tipos de testes este processo executa?
A IA faz deploy de código para produção autonomamente?
Este processo funciona em projetos enterprise?
Quanto tempo demora a implementar este processo na nossa empresa?
E quanto à segurança do código-fonte?
Vão substituir a nossa equipa de desenvolvimento?
Quanto custa o desenvolvimento de software com IA?
Quais são os sinais típicos de que uma empresa está pronta para este processo?
Prontos para um piloto?
Começamos com uma auditoria do processo existente e um piloto num microsserviço selecionado. Primeiros resultados visíveis em 2-4 semanas. Sem contratos plurianuais obrigatórios.