Web Scraping — Definizioa eta Negozio-erabilera Kasuak
Web scraping webgune publikoetatik datuen eskuratze eta prozesatze automatizatua da. Negozio-aplikazio legitimo asko dituen tresna zabala da:
- Lehiakideen prezioen monitorizazioa — merkataritza elektronikoko plataformetan eta prezioen konparazio-guneetan produktuen prezioen jarraipena.
- Lead-en sorrera — enpresen (ez pertsonen) harremanetarako datu publiko eskuragarrien bilketa industria-direktorioetik.
- Hedabideen eta erreputazioaren monitorizazioa — markei, produktuei eta zuzendariei buruzko aipamenen jarraipena hedabideetan eta industria-atarietan.
- Merkatu-analisia — produktuei, kategoriei eta joerei buruzko datuen bilketa industria-webguneetatik.
- Erregistro-datuen egiaztapena — enpresen informazioaren egiaztapen automatizatua erregistro publikoetatik.
- Finantza-datuen agregazioa — finantza-txosten publikoak, merkatu-kotizazioak eta datu makroekonomikoak biltzea.
EBko Esparru Juridikoa — Lau Ikuspegi
EBn web scrapinga gutxienez lau ikuspegi juridikotik ebaluatzen da:
1. DBEO — Webeko Datu Pertsonalak
Galdera nagusia: scrapatutako datuek datu pertsonalak dituzte? Pertsona baten izena, helbide elektronikoa, telefono-zenbakia, argazkia edo IP helbidea datu pertsonalak dira DBEOren menpe, nahiz eta publikoki eskuragarri egon.
Pertsona batek datuak publiko egin izanak (adibidez, LinkedIn-en) ez du oinarri juridikorik ematen libreki biltzeko eta prozesatzeko. DBEOren 6. artikuluko sei oinarri juridikoetako bat izan behar duzu. Negozio-scrapingerako, arduradunaren interes legitimoa erabiltzen da gehienetan — baina orekatze-proba bat eskatzen du (zure interesak pertsonaren pribatutasun-eskubidea gainditzen duen ala ez).
2. Egile-eskubideak — Datu-baseen Babesa
Datu-baseen Zuzentarauak (96/9/EE) eta ezarpen-legeria nazionalak datu-baseak elementu substantiboen erauzketaren aurka babesten dituzte. Datu-base babestuak diren webguneetatik (denda online-ak, higiezinen atariak, langileen datu-baseak) datuak masiboki deskargatzeak datu-base ekoizlearen eskubideak urra ditzake.
Proba juridikoa: datu hauek biltzeak webgunea bisitatu beharrik gabe uzten al du erabiltzailea? Hala bada — sui generis datu-base eskubidea urratzeko arriskua dago.
3. Zerbitzu-baldintzak
Webgune gehienek debekatzen dute datuen eskuratze automatizatua zerbitzu-baldintzetan. Zerbitzu-baldintzak urratzeak lehia desleiala edo sistema informatiko batera baimenik gabeko sarbidea erreklamatzeko oinarria izan daiteke.
4. Datu Publikoetarako Sarbidea — Data Act eta Open Data
EBko Data Act (2025etik faseka indarrean sartzen) eta Open Data Zuzentarauak datuetarako sarbide legalerako aukera berriak sortzen dituzte — gobernu-erakundeek duten datu publikoak barne. Hau da datu publikoak behar dituzten enpresentzako bide hobetsia.
Web Scraping Legalerako Praktika Onak
Web scraping negozio-ikuspuntutik justifikatuta badago eta esparru juridikoaren barruan badago, jarraitu praktika hauek:
- Egiaztatu robots.txt — robots.txt fitxategiak gunearen jabeak indexatzeko baimendutako atalak zehazten ditu. Orientabidea da (ez eskakizun juridikoa), baina errespetatzea praktika ona da eta arrisku juridikoa murrizten du.
- Erabili API ofizialak — zerbitzu batek bere datuetarako API bat eskaintzen badu, erabili scraping egin ordez. API bat sarbide-bide legal eta dokumentatua da.
- Abiadura-muga eta kontrola — ez gainkargatu helburuko zerbitzaria. Scraping oldartsua DDoS eraso gisa sailkatu daiteke.
- Anonimizatu datu pertsonalak — eskuratu ondoren berehala, kendu edo anonimizatu datu pertsonalak helbururako funtsezkoak ez badira.
- Dokumentatu oinarri juridikoa — scraping proiektu bat abiarazi aurretik, prestatu dokumentazio juridikoa: helburua, datuen esparrua, DBEO oinarria (aplikagarria bada), interesen orekatze-analisia.
- Atxikipena eta minimizazioa — gorde datuak behar den denboran soilik. Ezabapen-politika automatizatuak derrigorrezkoak dira.
Enpresa-datuak vs. Datu Pertsonalen Scrapinga — Bereizketa Nagusia
Bereizketa praktiko garrantzitsuena: enpresa-datuak (izena, identifikazio fiskala, egoitza soziala, erregistro-zenbakia, industria, txosten publikoetako diru-sarrerak) orokorrean segurua da erregistro publikoetatik eskuratzea. Datu pertsonalak — nahiz eta publikoki eskuragarri egon — arreta berezia eskatzen dute eta normalean oinarri juridiko sendoa behar dute.
Enpresentzako, ESKOM.AI-k erregistro-datu iturrietarako sarbide integratua eskaintzen du — DBEO betetze osoarekin, cache automatizatuekin eta iturrien arteko fallback kudeaketarekin. Honek scrapinga ezabatzen du API legalak eskuragarri diren tokietan.
Web Scraping eta AA Ereduak — Arrisku Bereziak
Scrapatutako datuetan AA ereduak entrenatzen dituzten enpresek arrisku juridiko gehigarriak dituzte. AAren entrenamendu datu-multzoetako egile-eskubideei buruzko araudia azkar eboluzionatzen ari da — bai EB mailan (AI Act) bai jurisprudentzian (EBko eta AEBetako epaiak AA sortzaileei buruz).
Printzipio orokorra: negozio-analisirako legalki scrapatutako datuak ez dira nahitaez legalki erabili ahal AA eredu komertzialak entrenatzeko. Hau galdera juridiko bereizi bat da, ebaluazio independente bat eskatzen duena.