Pillar page
Wytwarzanie oprogramowania z AI
Sprawdzony proces automatyzacji developmentu z zespołem agentów AI — od analizy wymagań, przez kodowanie i testy (unit, integration, E2E, security, performance), aż po wdrożenie produkcyjne z pełnym audit trailem.
Dysponujemy zespołem wyspecjalizowanych agentów AI, który uczestniczy w każdym etapie cyklu wytwarzania oprogramowania — od analizy wymagań, przez projektowanie architektury, kodowanie i wielowarstwowe testy, aż po code review, dokumentację i wdrożenie z pełnym audit trailem.
W ten sposób wytwarzamy własne produkty ESKOM AI — platformę multi-agent HybridCrew, system do audytów Compliance, mikroserwis KRS+CRBR i kilkanaście integracji. Ten sam proces stosujemy w projektach dla klientów: zarówno przy budowie nowych mikroserwisów, jak i przy modernizacji systemów legacy.
Ten artykuł opisuje, jak to działa w praktyce: jakie zadania przejmują agenty, a które pozostają po stronie człowieka, jakie testy uruchamiamy i dlaczego ten proces jest powtarzalny.
Po co automatyzować development?
Klasyczny cykl wytwarzania oprogramowania (analiza → kod → testy → review → deploy) w dojrzałym zespole zajmuje typowo 2-4 tygodnie na feature średniej wielkości. Większość tego czasu to zadania powtarzalne: pisanie boilerplate, generowanie testów jednostkowych, recenzowanie zmian, aktualizacja dokumentacji, generowanie migracji bazy danych. Wszystkie podatne na automatyzację.
Cel naszego procesu jest prosty: dwie-trzy osoby z agentami AI dostarczają wartość, jaką wcześniej dawał zespół 8-10 osób — bez wypalenia, z lepszą jakością (więcej testów, lepszy code review, pełna dokumentacja) i ze skróconym time-to-market.
To nie jest „AI zastąpi programistów". To jest „programiści z AI zastąpią programistów bez AI". Doświadczeni inżynierowie pozostają niezbędni — projektują architekturę, podejmują decyzje strategiczne, recenzują złożone zmiany. Agenty przejmują rutynę.
Sześć etapów procesu
Pipeline od wymagań do produkcji. Każdy etap wykonują wyspecjalizowane agenty AI, a człowiek nadzoruje i zatwierdza kluczowe decyzje.
Analiza wymagań i architektura
Agenty AI analizują dokumentację biznesową, rozmowy z klientem (z transkrypcji), istniejący kod. Proponują architekturę mikroserwisową, schemat bazy danych, listę endpointów, model uprawnień. Człowiek (CTO/architekt) recenzuje i zatwierdza propozycję przed kodowaniem.
Pisanie kodu (TDD)
Najpierw testy, potem implementacja. Agent backendowy pisze API w FastAPI/Express, agent frontendowy komponenty React. Każda zmiana = osobny pull request z czytelnym commitem. Standardy kodowania (Black, ESLint, Prettier) wymuszane automatycznie.
Wielowarstwowe testy
Unit (pytest, Jest), integration (testcontainers z prawdziwym PostgreSQL), E2E (Playwright), UI snapshot, security (OWASP, gitleaks, bandit), performance (k6/locust), accessibility (axe). Każdy PR uruchamia pełny pipeline — czerwony test = blokada merge.
Code review przez AI
Agent SecurityReviewer skanuje pod kątem OWASP Top 10, agent QualityReviewer pod kątem czytelności i wzorców, agent ArchitectureReviewer pod kątem spójności z resztą systemu. Wątpliwe miejsca eskalowane do człowieka.
Dokumentacja i CHANGELOG
Każda zmiana logiki = bump wersji + wpis w CHANGELOG.md w formacie Keep a Changelog. Dokumentacja API (OpenAPI/Swagger) generowana automatycznie. CLAUDE.md aktualizowany po każdej sesji z nowymi lekcjami.
Wdrożenie z Change Request
Deploy zawsze przez Git (NIGDY bezpośredni scp). Najpierw środowisko testowe, weryfikacja Playwright, dopiero potem produkcja po zatwierdzeniu CR. Skrypt deploy zawiera plan rollback (<5 min) i health checks.
Co zyskuje firma?
Tysiące testów automatycznych
Każdy projekt produkcyjny ma od kilku do kilkunastu tysięcy testów — unit, integration, E2E, security, performance. Regresje wykrywane w CI, zanim trafią do użytkownika.
Pełny audit trail
Każda zmiana w kodzie, bazie danych, konfiguracji jest zapisana: Git, audit log w bazie, CHANGELOG, Change Request. Spełnia wymagania ISO 27001, EU AI Act, RODO.
Skalowalność zespołu
Dwie-trzy osoby z agentami AI dostarczają wartość, jaką wcześniej dawał zespół 8-10 osób. Bez wypalenia, z lepszą jakością i szybszym timeline.
Eskalacja do silniejszych modeli
Routing LLM wybiera odpowiedni model do zadania: drobne zmiany — lokalny Ollama (koszt $0), złożona architektura — Claude Opus. Optymalizacja kosztu i jakości w jednym.
Powtarzalność i standardy
Każdy projekt stosuje te same standardy: feature branch workflow, squash merge, Conventional Commits, CHANGELOG, EU AI Act, RODO. Nowy deweloper rozumie strukturę w 1 dzień.
Bezpieczeństwo by default
Gitleaks na pre-commit + CI, sekrety w HashiCorp Vault, repozytoria prywatne, SSO Keycloak, Tailscale VPN dla wewnętrznych usług. Zero kompromisów na koszt szybkości.
Wielowarstwowe testy — fundament jakości
Każda zmiana w kodzie produkcyjnym przechodzi przez kompletny pipeline testów. Bez wyjątków — nawet zmiana literówki w komentarzu uruchamia CI, bo test pipeline jest wbudowany w Git hook, a nie polityczną decyzję dewelopera.
- Testy jednostkowe (unit): pytest, Jest, vitest. Sprawdzają pojedyncze funkcje i klasy. Pokrycie >80% dla kodu krytycznego.
- Testy integracyjne: testcontainers z prawdziwymi instancjami PostgreSQL, Redis, Vault. Mocki tylko dla zewnętrznych API third-party.
- Testy E2E (end-to-end): Playwright w Firefoxie (domyślnie), Chrome (opcjonalnie). Symulują pełne ścieżki użytkownika: login → akcja → weryfikacja.
- Testy UI (snapshot, accessibility): Playwright + axe-core. WCAG 2.0 AA jako baseline, Lighthouse 100/100/100/100 jako cel.
- Testy bezpieczeństwa: OWASP Top 10 (semgrep, bandit, eslint-plugin-security), gitleaks (skanowanie sekretów na pre-commit i CI), trivy (skanowanie obrazów Docker).
- Testy wydajnościowe: k6 lub locust dla load testów, sprawdzanie p95/p99 response time pod obciążeniem.
- Testy regresyjne: pełny suite uruchamiany przed każdym deployem produkcyjnym. Każdy zgłoszony bug zostaje testem regresyjnym.
- Testy smoke: minimalny zestaw 5-10 testów uruchamianych po deployu na środowisku produkcyjnym (czy aplikacja w ogóle wstała).
- Testy acceptance: testy biznesowe (Cucumber/Gherkin) potwierdzające, że wymaganie zostało spełnione.
Czerwony test = blokada merge. Bez wyjątków. Jeśli test jest „flaky" (niestabilny), agent diagnostyczny analizuje przyczynę i naprawia test lub kod, ale nigdy nie usuwa testu bez decyzji człowieka.
Typowe przypadki użycia
Wzorce, które stosujemy najczęściej. Każdy ma swój zestaw agentów, narzędzi i szablonów. Time-to-value mierzony w tygodniach, nie w miesiącach.
Modernizacja systemu legacy
- •Stara aplikacja monolityczna (PHP/.NET, brak testów, ciężka w utrzymaniu)
- •Agenty rozkładają monolit na mikroserwisy (proces inkrementalny, bez przestoju)
- •Generują testy charakterystyczne (capture obecne zachowanie) przed refaktoringiem
- •Migracja danych z pełnym audit trailem i planem rollback
Nowy mikroserwis enterprise
- •Specyfikacja na wejściu (Jira ticket, dokument PRD, transkrypcja spotkania)
- •Architektura → kod → testy → review → deploy w 2-3 tygodnie
- •Integracja z istniejącym SSO (Keycloak), audit logiem, monitoringiem
- •Pełna zgodność z EU AI Act i RODO od pierwszej linii kodu
Integracja systemów
- •Łączenie ERP, CRM, KRS, Microsoft Graph, IBM, Cisco, partnerzy zewnętrzni
- •Agenty piszą adaptery, mapowania, retry/backoff, idempotentność
- •Testy integracyjne na prawdziwych endpointach (sandbox API)
- •Monitoring (Prometheus + Grafana) i alerty (Sentry) wpięte automatycznie
Platformy multi-tenant
- •Wieloklienckie SaaS z pełną izolacją danych (per-tenant schema lub row-level security)
- •Onboarding klienta zautomatyzowany (provisioning Keycloak, baza, role)
- •Billing oparty o SSO Billing SDK (token usage tracking, fail-open)
- •Compliance: RODO, ISO 27001, EU AI Act gotowe do audytu
Porównanie: klasyczny zespół vs. proces z AI
| Aspekt | Klasyczny zespół (8-10 osób) | Zespół z agentami AI (2-3 osoby) |
|---|---|---|
| Time-to-market (średni feature) | 2-4 tygodnie | 3-7 dni |
| Pokrycie testami | 40-60% (jeśli zespół ma czas) | >80% domyślnie (testy generowane razem z kodem) |
| Code review | 1 osoba, średnio 30-60 min | 3 agenty (security, quality, architecture) + człowiek przy złożonych zmianach |
| Dokumentacja | Często niekompletna, „dorabiana" | Generowana razem z kodem (OpenAPI, README, CHANGELOG) |
| Audit trail | Git history | Git + audit log w bazie + CHANGELOG + Change Request |
| Skalowanie | Liniowe (więcej osób = wyższy koszt komunikacji) | Nieliniowe (więcej agentów = ta sama liczba osób nadzoruje) |
| Compliance (EU AI Act, RODO, ISO 27001) | Często zewnętrzny audyt po fakcie | Wbudowane w proces od pierwszej linii kodu |
Najczęstsze pytania
Czym jest zautomatyzowane wytwarzanie oprogramowania z AI?
Czym różni się ten proces od klasycznego programowania z Copilotem?
Jakie typy testów uruchamia ten proces?
Czy AI samodzielnie wdraża kod na produkcję?
Czy ten proces sprawdza się przy projektach enterprise?
Jak długo zajmuje wdrożenie tego procesu w naszej firmie?
Co z bezpieczeństwem kodu źródłowego?
Czy zastąpicie nasz zespół deweloperski?
Ile kosztuje wytwarzanie oprogramowania z AI?
Jakie są typowe sygnały, że firma jest gotowa na ten proces?
Gotowi na pilotaż?
Zaczynamy od audytu istniejącego procesu i pilotażu na wybranym mikroserwisie. Pierwsze efekty widoczne w 2-4 tygodnie. Bez zobowiązań na wieloletnie kontrakty.