Web scraping — definice a obchodní případy použití
Web scraping je automatizované získávání a zpracování dat z veřejných webových stránek. Je to široký nástroj s mnoha legitimními obchodními aplikacemi:
- Monitoring cen konkurentů — sledování cen produktů na e-commerce platformách a srovnávačích cen.
- Generování leadů — shromáždění veřejně dostupných kontaktních dat firem (ne jednotlivců) z odvětvových adresářů.
- Monitoring médií a reputace — sledování zmínek značek, produktů a vedení v médiích a odvětvových portálech.
- Analýza trhu — shromáždění dat o produktech, kategoriích a trendech z odvětvových webů.
- Ověřování dat rejstříků — automatizované ověřování informací o firmách z veřejných rejstříků.
- Agregace finančních dat — shromáždění veřejných finančních zpráv, tržních kurzů a makroekonomických dat.
Právní rámec v EU — čtyři perspektivy
Web scraping v EU je posuzován nejméně ze čtyř právních perspektiv:
1. GDPR — osobní údaje na webu
Klíčová otázka: obsahují shromážděná data osobní údaje? Jméno osoby, e-mailová adresa, telefonní číslo, fotografie nebo IP adresa jsou osobní údaje podléhající GDPR, i když jsou veřejně dostupné.
Pouhá skutečnost, že jednotlivec zveřejnil data (např. na LinkedIn), neposkytuje právní základ pro jejich volné shromáždění a zpracování. Je potřeba jeden ze šesti právních základů z čl. 6 GDPR. Pro obchodní scraping se nejběžněji používá oprávněný zájem správce — ale vyžaduje test vážení zájmů (zda váš zájem převažuje nad právem jednotlivce na soukromí).
2. Autorské právo — ochrana databází
Směrnice o databázích (96/9/ES) a provádějící národní legislativa chrání databáze před extrakcí podstatných prvků. Hromadné stahování dat z webových stránek tvořících chráněné databáze (online obchody, realitní portály, databáze zaměstnanců) může porušovat práva výrobce databáze.
3. Podmínky služby
Většina webových stránek zakazuje automatizované získávání dat ve svých podmínkách služby. Porušení podmínek může být základem pro nároky z neférové hospodářské soutěže nebo neoprávněného přístupu k počítačovému systému.
4. Přístup k veřejným datům — Data Act a otevřená data
EU Data Act (vstupující v platnost postupně od roku 2025) a Směrnice o otevřených datech vytváří nové příležitosti pro legální přístup k datům — včetně veřejných dat držených vládními subjekty. Jde o preferovaný způsob pro firmy, které potřebují veřejná data.
Osvědčené postupy pro legální web scraping
Pokud je web scraping z obchodního hlediska oprávněný a spadá do právního rámce, dodržujte tyto postupy:
- Zkontrolujte robots.txt — soubor robots.txt uvede, které části webu vlastník povoluje k indexování.
- Použijte oficiální API — pokud služba nabízí API pro svá data, použijte ho místo scrapingu.
- Omezování a rate limiting — nepřetěžujte cílový server. Agresivní scraping může být klasifikován jako DDoS útok.
- Anonymizujte osobní data — okamžitě po získání odstraňte nebo anonymizujte osobní data, pokud nejsou pro účel nezbytná.
- Dokumentujte právní základ — před spuštěním scrapingového projektu připravte právní dokumentaci: účel, rozsah dat, základ GDPR, analýzu vážení zájmů.
- Retence a minimalizace — ukládejte data jen tak dlouho, jak je nezbytné.
Firemní data vs. osobní data — klíčový rozdíl
Nejdůležitější praktický rozdíl: firemní data (název, IČO, adresa sídla, číslo v rejstříku, odvětví, tržby z veřejných zpráv) jsou obecně bezpečná k získání z veřejných rejstříků. Osobní data — i když jsou veřejně dostupná — vyžadují zvláštní opatrnost a obvykle silný právní základ.
Pro podniky ESKOM.AI nabízí integrovaný přístup k legitimním zdrojům rejstříkových dat — s plným souladem s GDPR, automatizovaným cachováním a zpracováním failover mezi zdroji. Eliminuje to potřebu scrapingu tam, kde jsou dostupná legální API.
Web scraping a AI modely — zvláštní rizika
Firmy trénující AI modely na scrapovaných datech čelí dodatečné sadě právních rizik. Právní předpisy týkající se autorských práv v trénovacích datových sadách AI se rychle vyvíjejí — jak na úrovni EU (AI Act), tak v judikatuře. Obecný princip: data scrapovaná legálně pro účely obchodní analýzy nemusí být nutně legálně použitelná k trénování komerčních AI modelů. Jde o samostatnou právní otázku vyžadující nezávislé posouzení.