Udtrækning af webdata — Juridiske aspekter og bedste praksis

Web scraping — Definition og forretningsanvendelsestilfælde

Web scraping er automatiseret hentning og behandling af data fra offentlige websider. Det er et bredt værktøj med mange legitime forretningsapplikationer:

Overvågning af konkurrentpriser — sporing af produktpriser på e-handelsplatforme og prissammenligningssider
Leadgenerering — indsamling af offentligt tilgængelige kontaktdata for virksomheder (ikke enkeltpersoner) fra branchekataloger
Medie- og omdømmesovervågning — sporing af omtaler af mærker, produkter og ledelse i medier og brancheportaler
Markedsanalyse — indsamling af data om produkter, kategorier og tendenser fra brancheweb
Registerdata-verifikation — automatiseret verifikation af virksomhedsoplysninger fra offentlige registre
Aggregering af finansielle data — indsamling af offentlige finansielle rapporter, markedskurser og makroøkonomiske data

Juridisk ramme i EU — Fire perspektiver

Web scraping i EU vurderes fra mindst fire juridiske perspektiver:

1. GDPR — Personoplysninger på nettet

Nøglespørgsmålet: indeholder de indsamlede data personoplysninger? En persons navn, e-mailadresse, telefonnummer, fotografi eller IP-adresse er personoplysninger underlagt GDPR, selv om de er offentligt tilgængelige.

Den blotte kendsgerning, at en person har offentliggjort data (f.eks. på LinkedIn), giver ikke juridisk grundlag for fri indsamling og behandling heraf. Der kræves ét af de seks juridiske grundlag fra art. 6 GDPR. Til forretnings-scraping bruges oftest den dataansvarliges legitime interesse — men kræver en interesseafvejningstest.

2. Ophavsret — Beskyttelse af databaser

Databasedirektivet (96/9/EF) og implementerende national lovgivning beskytter databaser mod udtrækning af væsentlige elementer. Massedownload af data fra websteder, der udgør beskyttede databaser (onlinebutikker, ejendomsportaler, medarbejderdatabaser) kan krænke databaseproducentens rettigheder.

3. Servicebetingelser

De fleste websteder forbyder automatiseret datahentning i deres servicebetingelser. Overtrædelse af betingelser kan danne grundlag for krav om unfair konkurrence eller uautoriseret adgang til et computersystem.

4. Adgang til offentlige data — Data Act og åbne data

EU Data Act (der gradvist træder i kraft fra 2025) og direktivet om åbne data skaber nye muligheder for lovlig adgang til data — herunder offentlige data indehdt af statslige enheder. Dette er den foretrukne måde for virksomheder, der har brug for offentlige data.

Bedste praksis for lovlig web scraping

Hvis web scraping er forretningsmæssigt berettiget og falder inden for den juridiske ramme, følg disse praksisser:

Kontroller robots.txt — filen angiver, hvilke dele af webstedet ejeren tillader at indeksere
Brug officielle API'er — hvis en tjeneste tilbyder et API til sine data, brug det i stedet for scraping
Begrænsning og rate limiting — overbelast ikke målserveren. Aggressiv scraping kan klassificeres som et DDoS-angreb
Anonymiser personoplysninger — fjern eller anonymiser øjeblikkeligt personoplysninger efter hentning, hvis de ikke er nødvendige for formålet
Dokumenter det juridiske grundlag — inden lancering af et scraping-projekt, forbered juridisk dokumentation
Opbevaring og minimering — gem data kun så længe som nødvendigt

Virksomhedsdata vs. personoplysninger — Den vigtige forskel

Den vigtigste praktiske forskel: virksomhedsdata (navn, CVR-nummer, registreret adresse, registreringsnummer, branche, omsætning fra offentlige rapporter) er generelt sikre at hente fra offentlige registre. Personoplysninger — selv om de er offentligt tilgængelige — kræver særlig forsigtighed og normalt et stærkt juridisk grundlag.

For virksomheder tilbyder ESKOM.AI en integreret tilgang til legitime kilder til registerdata — med fuld GDPR-overholdelse, automatiseret caching og failover-behandling mellem kilder. Dette eliminerer behovet for scraping, hvor lovlige API'er er tilgængelige.

Web scraping og AI-modeller — Særlige risici

Virksomheder, der træner AI-modeller på scrapede data, står over for et yderligere sæt juridiske risici. Juridiske regler vedrørende ophavsret i AI-træningsdatasæt udvikler sig hurtigt — både på EU-niveau (AI-loven) og i retspraksis. Det generelle princip: data scraped lovligt til forretningsanalyseformål er muligvis ikke nødvendigvis lovligt brugbart til træning af kommercielle AI-modeller. Dette er et separat juridisk spørgsmål, der kræver uafhængig vurdering.