Web scraping to technika polegająca na automatycznym wydobywaniu danych ze stron internetowych. Stosuje się ją m.in. do analizy rynku (np. śledzenie cen produktów), ale również do przygotowania danych do szkolenia modeli AI. Web scraping zakłada zwielokrotnianie i pobieranie danych, które mogą stanowić dane osobowe lub utwory chronione prawem autorskim. Do tego dochodzą kwestie kopiowania baz danych, co stanowi naruszenie praw producenta bazy danych. Dlatego kluczowe problemy prawne, które należy zaadresować to ochrona danych osobowych (RODO), praw autorskich i praw do baz danych.
Prawa autorskie i ochrona baz danych w kontekście web scrapingu
Zasadniczo scraping narusza prawa do scrapowanych elementów stron (np. grafik, tekstów, układów stron). Ponadto naruszamy prawa do baz danych pobierając z baz danych, nawet tych publicznie dostępnych, istotną, co do jakości lub ilości, części jej zawartości.
Są jednak wyjątki, które pozwalają na:
- scraping publicznie dostępnych danych i dalszą analizę jego rezultatów w celu prowadzenia badań naukowych przez organizacje badawcze i dziedzictwa kulturowego
- scraping komercyjny w dowolnym celu, jeżeli brak odpowiedniego sprzeciwu właściciela treści, ale zescrapowane dane mogą być przechowywane tylko tak długo, jak jest to konieczne do celów eksploracji tekstów i danych.
Oba wyjątki działają jeżeli mamy legalny dostęp do danych.
Czy te wyjątki dają nam prawo do uczenia modeli uczenia maszynowego z wykorzystaniem zescrapowanych danych chronionych prawem autorskim lub innymi prawami?
Zdania są podzielone, a opinie różne1.
Tytułem prawniczego wyjaśnienia, opisane wyjątki dotyczące eksploracji tekstów i danych (ang. text and data mining, TDM) przewidziane są w art. 3 i 4 Dyrektywy DSM (Digital Single Market). Zgodnie z definicją z DSM eksploracja tekstów i danych oznacza zautomatyzowaną technikę analityczną służącą do analizowania tekstów i danych w postaci cyfrowej w celu wygenerowania informacji, obejmujących między innymi wzorce, tendencje i korelacje.
Ochrona danych osobowych a scraping
Ważny banał na początek – dane osobowe to wszelkie informacje umożliwiające identyfikację osoby, nawet jeśli są publicznie dostępne (np. imię, nazwisko, adres e-mail).
Drugi banał – przetwarzaniem danych jest już samo ich pozyskiwanie poprzez web scraping.
Dodając te dwa banały dochodzimy do wniosku, że web scraping musi być zgodny z RODO. Pójdźmy dalej i przyznajmy, że osoba scrapująca jest administratorem danych osobowych. Z tego tytułu spada na nią cała masa obowiązków.
Faktycznie problematyczny jest jednak tylko jeden (no może dwa – patrz poniżej), ale za to jaki – na jakiej podstawie prawnej pobieramy dane osobowe?
Każde pozyskiwanie danych musi być zgodne z jedną z podstaw prawnych określonych w RODO (np. zgoda osoby, konieczność do realizacji umowy).
W praktyce jedyną dostępną podstawą do web scrapingu jest uzasadniony interes. Problem w tym, że:
- należy przeprowadzić test równowagi i ocenić, czy jednak interesy podmiotów danych nie przeważają nad naszym uzasadnionym interesem;
- nie nadaje się jako podstawa przetwarzania (zbierania) danych wrażliwych;
- spełnienie obowiązku informacyjnego tj. poinformowanie każdej osoby, której dane zebraliśmy, nie jest wykonalne (to jest ten drugi problem, ale tutaj może mieć zastosowanie wyjątek przewidziany w art. 14 ust. 5 lit. b RODO i obowiązek odpada).
Jakie więc przesłanki musimy spełnić, aby legalnie przetwarzać dane osobowe przy scprapingu?
1) Ustalić istnienie uzasadnionego interesu
Interes musi być konkretny, realny i zgodny z prawem. Dla przykładu francuski organ ochrony danych (CNIL2) dopuszcza interesy komercyjne (np. rozwój usług opartych na AI), pod warunkiem że nie naruszają one praw osób, których dane dotyczą. Holenderski organ ochrony danych osobowych ogranicza to wyłącznie do interesów chronionych prawnie (np. zapobieganie oszustwom).
2) Konieczność przetwarzania
Dane muszą być adekwatne, istotne i ograniczone do niezbędnego minimum. EDPB3 zaleca m.in.:
- definiowanie precyzyjnych kryteriów zbierania danych (np. wykluczanie geolokalizacji lub danych wrażliwych).
- stosowanie filtrów technicznych usuwających niepotrzebne informacje po identyfikacji.
3) Bilansowanie interesów (test równowagi)
Należy przeprowadzić analizę proporcjonalności, uwzględniającą oczekiwania osób, których dane dotyczą. CNIL podkreśla, że przetwarzanie danych z forów publicznych może być dopuszczalne, jeśli ogranicza się do pseudonimów i treści komentarzy.
Ponadto organy ochrony danych osobowych zalecają:
1) Wykluczenie zbierania danych z wcześniej zdefiniowanych stron zawierających wrażliwe informacje, takich jak strony pornograficzne, fora zdrowotne, serwisy społecznościowe używane głównie przez osoby niepełnoletnie, strony genealogiczne lub inne z obszernymi danymi osobowymi.
2) Unikanie pozyskiwania danych z witryn, które wyraźnie zabraniają skanowania poprzez pliki robot.txt lub ai.txt.
3) Wdrożenie czarnej listy dla osób, które sprzeciwiają się zbieraniu danych z określonych stron internetowych, nawet przed rozpoczęciem ich gromadzenia.
4) Zapewnienie osobom prawa do sprzeciwu wobec zbierania danych (moim zdaniem raczej niewykonalne, ale można udostępnić mechanizm na swojej stronie, który pozwala sprawdzić, czy mamy dane danej osoby i usunąć je ze zbioru, o ile mamy ku temu narzędzia).
5) Ograniczenie zbierania danych wyłącznie do informacji publicznie dostępnych oraz jawnie publicznych danych użytkowników, dzięki czemu zapobiega się utracie kontroli nad prywatnymi informacjami, czyli np. wykluczamy prywatne posty w serwisach społecznościowych.
6) Stosowanie anonimizacji lub pseudonimizacji danych bezpośrednio po ich zebraniu, aby zwiększyć bezpieczeństwo danych.
7) Informowanie na swojej stronie o scrapowanych witrynach oraz praktykach zbierania danych poprzez powiadomienia dotyczące web scrapingu.
8) Zapobieganie wiązaniu danych osobowych z innymi identyfikatorami, chyba że jest to niezbędne do rozwoju systemów sztucznej inteligencji.
9) Rejestrowanie danych kontaktowych w organie ochrony danych (np. francuski CNIL), aby informować osoby i umożliwić im wykonywanie praw wynikających z RODO wobec administratora danych (wątpię, żeby PUODO zrozumiał o co nam idzie, więc sugeruję odpuścić).
Rekomendacje praktyczne
Wiemy już, że scrapując:
1) musimy uważać aby zmieścić się, w którymś z wyjątków TDM, aby nie naruszyć praw autorskich.
2) aby legalnie zbierać dane osobowe musimy określić nasz uzasadniony interes w przetwarzaniu, ograniczyć przetwarzanie do minimum danych, zbilansować nasz interes z interesami osób, których dane przetwarzamy, a najlepiej podjąć jeszcze szereg czynności w celu zabezpieczenia powyższego.
Teraz kolej na praktyczne rekomendacje:
Jeżeli możesz korzystaj z API!
To tak pół żartem, pół serio. Mógłbym też napisać, dwa razy przemyśl zanim zaczniesz scraping i sprawdź, czy jednak nie pozyskasz danych w inny sposób np. przez API.
1. Respektuj Opt-out i regulaminy
- Sprawdzaj plik robots.txt i metadane strony przed scrapowaniem.
- Unikaj stron z wyraźnym zakazem TDM (np. tdm-reservation: opt-out)
- Wprowadź mechanizmy, które zapewniają powyższe.
2. Ogranicz scrapowanie danych osobowych
Stosuj techniczne metody wykluczania danych osobowych podczas web scrapingu np.:
- Filtrowanie wzorców danych i słów kluczowych – identyfikacja i wykluczenie informacji, które mogą zawierać dane osobowe.
- Anonimizacja i pseudonimizacja – przekształcanie danych osobowych w taki sposób, aby nie mogły być powiązane z konkretną osobą.
- Respektowanie znaczników i plików opt-out – jeśli strona udostępnia takie narzędzia, należy się do nich stosować.
- Ograniczenie zakresu web scrapingu – pozyskiwanie tylko tych danych, które są niezbędne do osiągnięcia celu pomijaj np. nr PESEL, adresy e-mail.
3. Dokumentuj proces scrapingu
Zapisuj źródła danych, datę scrapingu i stosowane środki bezpieczeństwa. Taka dokumentacja może się przydać w przypadku sporu lub kontroli PUODO.
4. Przygotuj odpowiednią dokumentację prawną
Przydatne będą rejestr czynności przetwarzania, dokument potwierdzający przeprowadzenie testu równowagi interesów, informacje o przetwarzaniu scrapowanych danych, a jeżeli udostępniasz model lub aplikację na nim opartą to licencja lub regulamin aplikacji.
Podsumowanie
Web scraping jest potężnym narzędziem, ale jego stosowanie wiąże się z wieloma wyzwaniami prawnymi. Zrozumienie ram prawnych oraz stosowanie odpowiednich zabezpieczeń technicznych i praktyk może pomóc w skutecznym korzystaniu z web scrapingu bez naruszania prawa.
Jeżeli ciekawi Cię temat, którego jeszcze nie opisałem albo masz dodatkowe pytania, napisz do mnie. Możesz też sprawdzić bazę wiedzy Kancelarii JDP.
- Dla zainteresowanych linki do dwóch artykułów wyrażających skrajnie różne opinie: można – M. Senftleben, Generative AI and Author Remuneration, IIC (2023) 54:1535–1560, https://doi.org/10.1007/s40319-023-01399-4, nie można – Dornis, Tim W., The Training of Generative AI Is Not Text and Data Mining (October 19, 2024). European Intellectual Property Review (E.I.P.R.), forthcoming 2/2025, dostępne SSRN: https://ssrn.com/abstract=4993782 lub http://dx.doi.org/10.2139/ssrn.4993782 ↩︎
- Homepage | CNIL ↩︎
- EDPB | European Data Protection Board ↩︎

Dodaj komentarz