Pillar page

Wytwarzanie oprogramowania z AI

Sprawdzony proces automatyzacji developmentu z zespołem agentów AI — od analizy wymagań, przez kodowanie i testy (unit, integration, E2E, security, performance), aż po wdrożenie produkcyjne z pełnym audit trailem.

Dysponujemy zespołem wyspecjalizowanych agentów AI, który uczestniczy w każdym etapie cyklu wytwarzania oprogramowania — od analizy wymagań, przez projektowanie architektury, kodowanie i wielowarstwowe testy, aż po code review, dokumentację i wdrożenie z pełnym audit trailem.

W ten sposób wytwarzamy własne produkty ESKOM AI — platformę multi-agent HybridCrew, system do audytów Compliance, mikroserwis KRS+CRBR i kilkanaście integracji. Ten sam proces stosujemy w projektach dla klientów: zarówno przy budowie nowych mikroserwisów, jak i przy modernizacji systemów legacy.

Ten artykuł opisuje, jak to działa w praktyce: jakie zadania przejmują agenty, a które pozostają po stronie człowieka, jakie testy uruchamiamy i dlaczego ten proces jest powtarzalny.

Po co automatyzować development?

Klasyczny cykl wytwarzania oprogramowania (analiza → kod → testy → review → deploy) w dojrzałym zespole zajmuje typowo 2-4 tygodnie na feature średniej wielkości. Większość tego czasu to zadania powtarzalne: pisanie boilerplate, generowanie testów jednostkowych, recenzowanie zmian, aktualizacja dokumentacji, generowanie migracji bazy danych. Wszystkie podatne na automatyzację.

Cel naszego procesu jest prosty: dwie-trzy osoby z agentami AI dostarczają wartość, jaką wcześniej dawał zespół 8-10 osób — bez wypalenia, z lepszą jakością (więcej testów, lepszy code review, pełna dokumentacja) i ze skróconym time-to-market.

To nie jest „AI zastąpi programistów". To jest „programiści z AI zastąpią programistów bez AI". Doświadczeni inżynierowie pozostają niezbędni — projektują architekturę, podejmują decyzje strategiczne, recenzują złożone zmiany. Agenty przejmują rutynę.

Sześć etapów procesu

Pipeline od wymagań do produkcji. Każdy etap wykonują wyspecjalizowane agenty AI, a człowiek nadzoruje i zatwierdza kluczowe decyzje.

1

Analiza wymagań i architektura

Agenty AI analizują dokumentację biznesową, rozmowy z klientem (z transkrypcji), istniejący kod. Proponują architekturę mikroserwisową, schemat bazy danych, listę endpointów, model uprawnień. Człowiek (CTO/architekt) recenzuje i zatwierdza propozycję przed kodowaniem.

2

Pisanie kodu (TDD)

Najpierw testy, potem implementacja. Agent backendowy pisze API w FastAPI/Express, agent frontendowy komponenty React. Każda zmiana = osobny pull request z czytelnym commitem. Standardy kodowania (Black, ESLint, Prettier) wymuszane automatycznie.

3

Wielowarstwowe testy

Unit (pytest, Jest), integration (testcontainers z prawdziwym PostgreSQL), E2E (Playwright), UI snapshot, security (OWASP, gitleaks, bandit), performance (k6/locust), accessibility (axe). Każdy PR uruchamia pełny pipeline — czerwony test = blokada merge.

4

Code review przez AI

Agent SecurityReviewer skanuje pod kątem OWASP Top 10, agent QualityReviewer pod kątem czytelności i wzorców, agent ArchitectureReviewer pod kątem spójności z resztą systemu. Wątpliwe miejsca eskalowane do człowieka.

5

Dokumentacja i CHANGELOG

Każda zmiana logiki = bump wersji + wpis w CHANGELOG.md w formacie Keep a Changelog. Dokumentacja API (OpenAPI/Swagger) generowana automatycznie. CLAUDE.md aktualizowany po każdej sesji z nowymi lekcjami.

6

Wdrożenie z Change Request

Deploy zawsze przez Git (NIGDY bezpośredni scp). Najpierw środowisko testowe, weryfikacja Playwright, dopiero potem produkcja po zatwierdzeniu CR. Skrypt deploy zawiera plan rollback (<5 min) i health checks.

Co zyskuje firma?

Tysiące testów automatycznych

Każdy projekt produkcyjny ma od kilku do kilkunastu tysięcy testów — unit, integration, E2E, security, performance. Regresje wykrywane w CI, zanim trafią do użytkownika.

Pełny audit trail

Każda zmiana w kodzie, bazie danych, konfiguracji jest zapisana: Git, audit log w bazie, CHANGELOG, Change Request. Spełnia wymagania ISO 27001, EU AI Act, RODO.

Skalowalność zespołu

Dwie-trzy osoby z agentami AI dostarczają wartość, jaką wcześniej dawał zespół 8-10 osób. Bez wypalenia, z lepszą jakością i szybszym timeline.

Eskalacja do silniejszych modeli

Routing LLM wybiera odpowiedni model do zadania: drobne zmiany — lokalny Ollama (koszt $0), złożona architektura — Claude Opus. Optymalizacja kosztu i jakości w jednym.

Powtarzalność i standardy

Każdy projekt stosuje te same standardy: feature branch workflow, squash merge, Conventional Commits, CHANGELOG, EU AI Act, RODO. Nowy deweloper rozumie strukturę w 1 dzień.

Bezpieczeństwo by default

Gitleaks na pre-commit + CI, sekrety w HashiCorp Vault, repozytoria prywatne, SSO Keycloak, Tailscale VPN dla wewnętrznych usług. Zero kompromisów na koszt szybkości.

Wielowarstwowe testy — fundament jakości

Każda zmiana w kodzie produkcyjnym przechodzi przez kompletny pipeline testów. Bez wyjątków — nawet zmiana literówki w komentarzu uruchamia CI, bo test pipeline jest wbudowany w Git hook, a nie polityczną decyzję dewelopera.

  • Testy jednostkowe (unit): pytest, Jest, vitest. Sprawdzają pojedyncze funkcje i klasy. Pokrycie >80% dla kodu krytycznego.
  • Testy integracyjne: testcontainers z prawdziwymi instancjami PostgreSQL, Redis, Vault. Mocki tylko dla zewnętrznych API third-party.
  • Testy E2E (end-to-end): Playwright w Firefoxie (domyślnie), Chrome (opcjonalnie). Symulują pełne ścieżki użytkownika: login → akcja → weryfikacja.
  • Testy UI (snapshot, accessibility): Playwright + axe-core. WCAG 2.0 AA jako baseline, Lighthouse 100/100/100/100 jako cel.
  • Testy bezpieczeństwa: OWASP Top 10 (semgrep, bandit, eslint-plugin-security), gitleaks (skanowanie sekretów na pre-commit i CI), trivy (skanowanie obrazów Docker).
  • Testy wydajnościowe: k6 lub locust dla load testów, sprawdzanie p95/p99 response time pod obciążeniem.
  • Testy regresyjne: pełny suite uruchamiany przed każdym deployem produkcyjnym. Każdy zgłoszony bug zostaje testem regresyjnym.
  • Testy smoke: minimalny zestaw 5-10 testów uruchamianych po deployu na środowisku produkcyjnym (czy aplikacja w ogóle wstała).
  • Testy acceptance: testy biznesowe (Cucumber/Gherkin) potwierdzające, że wymaganie zostało spełnione.

Czerwony test = blokada merge. Bez wyjątków. Jeśli test jest „flaky" (niestabilny), agent diagnostyczny analizuje przyczynę i naprawia test lub kod, ale nigdy nie usuwa testu bez decyzji człowieka.

Typowe przypadki użycia

Wzorce, które stosujemy najczęściej. Każdy ma swój zestaw agentów, narzędzi i szablonów. Time-to-value mierzony w tygodniach, nie w miesiącach.

Modernizacja systemu legacy

  • Stara aplikacja monolityczna (PHP/.NET, brak testów, ciężka w utrzymaniu)
  • Agenty rozkładają monolit na mikroserwisy (proces inkrementalny, bez przestoju)
  • Generują testy charakterystyczne (capture obecne zachowanie) przed refaktoringiem
  • Migracja danych z pełnym audit trailem i planem rollback

Nowy mikroserwis enterprise

  • Specyfikacja na wejściu (Jira ticket, dokument PRD, transkrypcja spotkania)
  • Architektura → kod → testy → review → deploy w 2-3 tygodnie
  • Integracja z istniejącym SSO (Keycloak), audit logiem, monitoringiem
  • Pełna zgodność z EU AI Act i RODO od pierwszej linii kodu

Integracja systemów

  • Łączenie ERP, CRM, KRS, Microsoft Graph, IBM, Cisco, partnerzy zewnętrzni
  • Agenty piszą adaptery, mapowania, retry/backoff, idempotentność
  • Testy integracyjne na prawdziwych endpointach (sandbox API)
  • Monitoring (Prometheus + Grafana) i alerty (Sentry) wpięte automatycznie

Platformy multi-tenant

  • Wieloklienckie SaaS z pełną izolacją danych (per-tenant schema lub row-level security)
  • Onboarding klienta zautomatyzowany (provisioning Keycloak, baza, role)
  • Billing oparty o SSO Billing SDK (token usage tracking, fail-open)
  • Compliance: RODO, ISO 27001, EU AI Act gotowe do audytu

Porównanie: klasyczny zespół vs. proces z AI

AspektKlasyczny zespół (8-10 osób)Zespół z agentami AI (2-3 osoby)
Time-to-market (średni feature)2-4 tygodnie3-7 dni
Pokrycie testami40-60% (jeśli zespół ma czas)>80% domyślnie (testy generowane razem z kodem)
Code review1 osoba, średnio 30-60 min3 agenty (security, quality, architecture) + człowiek przy złożonych zmianach
DokumentacjaCzęsto niekompletna, „dorabiana"Generowana razem z kodem (OpenAPI, README, CHANGELOG)
Audit trailGit historyGit + audit log w bazie + CHANGELOG + Change Request
SkalowanieLiniowe (więcej osób = wyższy koszt komunikacji)Nieliniowe (więcej agentów = ta sama liczba osób nadzoruje)
Compliance (EU AI Act, RODO, ISO 27001)Często zewnętrzny audyt po fakcieWbudowane w proces od pierwszej linii kodu

Najczęstsze pytania

Czym jest zautomatyzowane wytwarzanie oprogramowania z AI?
To proces, w którym wyspecjalizowane agenty AI uczestniczą w każdym etapie cyklu wytwarzania oprogramowania: od analizy wymagań, przez projektowanie architektury, kodowanie, testy automatyczne (unit, integration, E2E, security, performance, regression), aż po przegląd kodu i wdrożenie produkcyjne. Człowiek nadal nadzoruje proces i podejmuje kluczowe decyzje, ale rutynowe zadania (pisanie kodu, generowanie testów, refaktoring, dokumentacja) wykonują agenty AI z zachowaniem ustalonych standardów jakości.
Czym różni się ten proces od klasycznego programowania z Copilotem?
Copilot to autouzupełnianie — pomaga pisać pojedyncze linie kodu. Wytwarzanie oprogramowania z AI to kompletna orkiestracja: jeden agent planuje architekturę, drugi pisze kod, trzeci pisze testy, czwarty robi code review, piąty deployuje. Każdy ma swoją specjalizację, pamięć epizodyczną (uczy się z poprzednich projektów), narzędzia i kontekst. Efekt: znacznie większa skala automatyzacji niż przy pojedynczym Copilocie, z zachowaniem standardów enterprise (testy, security, audit trail).
Jakie typy testów uruchamia ten proces?
Każdy z rodzajów testów, jaki stosuje się w dojrzałych zespołach developerskich: testy jednostkowe (unit), integracyjne, end-to-end (E2E), UI (Playwright), bezpieczeństwa (OWASP Top 10, gitleaks), wydajnościowe (load), regresyjne, smoke i acceptance. Testy są pisane przed lub równolegle z kodem (TDD), a każda zmiana wymaga przejścia całego pipeline.
Czy AI samodzielnie wdraża kod na produkcję?
Nie automatycznie. Wdrożenia produkcyjne wymagają zatwierdzonego Change Request (CR) i decyzji człowieka. Agenty AI przygotowują dokumentację zmian, uruchamiają testy regresyjne, generują skrypty deploy z planem rollback, ale ostateczne uruchomienie na produkcji wymaga zgody operatora. Ta zasada jest celowa — minimalizuje ryzyko nieprzewidzianych skutków i zachowuje pełny audit trail.
Czy ten proces sprawdza się przy projektach enterprise?
Tak. Stosujemy go w naszych własnych produktach, w tym platformie HybridCrew (multi-agent), platformie consultingowej z SSO, mikroserwisach z PostgreSQL, integracjach z systemami zewnętrznymi (KRS, MS Graph, IBM, Keycloak). Każdy projekt ma swój pipeline CI/CD, środowiska dev/test/prod, monitoring i audit log. Proces skaluje się od pojedynczego mikroserwisu po platformę z wieloma kontenerami.
Jak długo zajmuje wdrożenie tego procesu w naszej firmie?
Zależy od kontekstu. Dla małego zespołu (1-3 deweloperów) integracja z istniejącym repozytorium i pipeline'em CI/CD zajmuje typowo 2-4 tygodnie: audyt, konfiguracja agentów, dopasowanie do standardów kodowania, szkolenie. Dla większych organizacji projekty pilotażowe (jeden zespół, jeden mikroserwis) trwają 6-8 tygodni, po czym następuje stopniowe rozszerzenie na kolejne zespoły.
Co z bezpieczeństwem kodu źródłowego?
Repozytoria klienta nigdy nie trafiają do zewnętrznych usług bez wyraźnej zgody. Domyślnie cały proces (agenty AI, modele LLM, baza wektorowa, audit log) działa w infrastrukturze klienta lub w prywatnej chmurze ESKOM AI z pełną izolacją. Sekrety zarządzamy przez HashiCorp Vault, kod skanujemy gitleaksem przed każdym commitem, a wszystkie repozytoria są domyślnie prywatne.
Czy zastąpicie nasz zespół deweloperski?
Nie. Doświadczeni deweloperzy są niezbędni — projektują architekturę, podejmują decyzje, recenzują złożone zmiany, rozwiązują nietypowe problemy. Agenty AI przejmują zadania powtarzalne i podatne na automatyzację: pisanie boilerplate, generowanie testów, dokumentacja, refaktoring, code review pierwszego poziomu. Cel: dwie-trzy osoby z AI dostarczają wartość, jaką wcześniej dawał zespół 8-10 osób — bez wypalenia, z lepszą jakością i pełnym audit trailem.
Ile kosztuje wytwarzanie oprogramowania z AI?
Wycena jest zawsze indywidualna i zależy od skali, modelu rozliczenia (subskrypcja platformy vs. dedykowany projekt), wymaganych integracji oraz tego, czy agenty działają na lokalnych modelach LLM (Ollama na GPU klienta — niższy koszt operacyjny) czy w chmurze (Anthropic, OpenAI — wyższa elastyczność). W pilotażach dążymy do zwrotu z inwestycji w pierwszym kwartale od pełnego uruchomienia.
Jakie są typowe sygnały, że firma jest gotowa na ten proces?
Najlepsze efekty osiągają zespoły, które już mają: repozytorium pod kontrolą wersji (Git), zdefiniowane standardy kodowania, podstawowy pipeline CI/CD, jasno spisane wymagania (Jira/Linear/własne) i kulturę code review. Brak któregoś z tych elementów nie blokuje wdrożenia — zaczynamy wtedy od audytu i przygotowania fundamentów. Najmniej dojrzałe są organizacje bez kontroli wersji lub z kodem produkcyjnym, którego nikt nie testuje.

Gotowi na pilotaż?

Zaczynamy od audytu istniejącego procesu i pilotażu na wybranym mikroserwisie. Pierwsze efekty widoczne w 2-4 tygodnie. Bez zobowiązań na wieloletnie kontrakty.