Jak sprawdzić dane firmy po NIP - przewodnik krok po kroku
czytaj więcej
Co to jest web scraping? Praktyczny przewodnik dla firm B2B
Scraping i dane B2B
Web scraping to automatyczne pobieranie danych ze stron internetowych przez programy komputerowe. W praktyce - zamiast otwierać 1 000 stron WWW ręcznie i przepisywać z nich numery telefonów do Excela, piszesz krótki skrypt, który robi to za Ciebie w 10 minut. Brzmi prosto, ale wokół scrapingu narosło wiele mitów - o legalności, technikach, kosztach.
W artykule wyjaśnimy, czym dokładnie jest web scraping, jak technicznie działa, jakie są jego najczęstsze zastosowania w lead generation B2B, co o nim mówi polskie prawo i kiedy warto zlecić scraping zamiast pisać własny skrypt.
Jak działa web scraping technicznie
Każda strona internetowa to dokument HTML, który Twoja przeglądarka renderuje wizualnie. Web scraper omija krok renderowania i bezpośrednio czyta HTML, wyciągając z niego konkretne elementy - tekst, linki, zdjęcia, ceny.
Najprostszy scraper w Pythonie ma 10 linii kodu:
import requests from bs4 import BeautifulSoup response = requests.get("https://example.com/firmy") soup = BeautifulSoup(response.text, "html.parser") for firma in soup.find_all("div", class_="firma"): nazwa = firma.find("h2").text telefon = firma.find("span", class_="phone").text print(nazwa, telefon) Trzy kroki: pobierz HTML, sparsuj go, wyciągnij interesujące pola. To wszystko. Bardziej zaawansowane scrapery dodają obsługę JavaScriptu (Selenium, Playwright), rotację proxy, captcha-solvery i kolejki w stylu Scrapy/Apify.
Scraping vs API
Najczęstsze pytanie: kiedy scrapować, a kiedy używać oficjalnego API? Krótka odpowiedź - API zawsze lepsze, jeśli istnieje. Daje gwarancję stabilności, limity są jasne, dokumentacja jest. Scrapuje się dopiero wtedy, gdy API nie ma, jest płatne niewspółmiernie do skali, albo nie udostępnia pól, których potrzebujesz.
Najczęstsze zastosowania scrapingu w B2B
- Lead generation - scraping list firm z portali branżowych, katalogów lokalnych, Google Maps. Najpopularniejsze zastosowanie.
- Monitorowanie cen konkurencji - e-commerce automatyzuje codzienne sprawdzanie cen u 50 konkurentów.
- Analiza SERP - SEO-wcy scrapują wyniki Google dla swoich fraz, sprawdzają jakie strony rankują i jakimi treściami.
- Monitoring social media i opinii - scraping Trustpilot, opinii Google, recenzji produktów.
- Wzbogacanie bazy CRM - masz NIP-y w CRM, scrapujesz GUS/CEIDG/strony WWW żeby dopiąć adresy e-mail i telefony.
- Research konkurencyjny - jakie produkty mają konkurenci w katalogu, jakie reklamy publikują, kto jest u nich w zespole.
Czy web scraping jest legalny w Polsce
To pytanie, na które klienci wracają najczęściej. Krótka odpowiedź - scrapping danych publicznych jest legalny, ale jest kilka warunków, których trzeba pilnować.
Co mówi prawo
- Ustawa o prawie autorskim - dane faktyczne (NIP, adres, telefon) nie podlegają ochronie prawem autorskim. Możesz je pobierać i wykorzystywać. Ochronie podlega natomiast układ bazy, layout strony, twórcze opisy.
- RODO - jeśli scrapujesz dane osobowe (imiona, e-maile osób fizycznych), musisz mieć podstawę prawną. Dla firm B2B najczęściej art. 6 ust. 1 lit. f (uzasadniony interes).
- Ustawa o ochronie baz danych - chroni „istotnej części" zawartości bazy danych. Jeśli zeskrobiesz 100% katalogu konkurencji i opublikujesz jako własny - to naruszenie. Pobranie pojedynczych rekordów - OK.
- Regulamin strony (ToS) - cywilnoprawny. Jeśli strona w regulaminie zabrania scrapingu, łamiesz umowę. W praktyce skutkuje to najwyżej blokadą IP, rzadko procesami.
Złota zasada: respektuj robots.txt
Plik example.com/robots.txt mówi botom, co mogą, a czego nie mogą pobierać. To nie jest blokada techniczna, tylko kulturalna prośba. Respektowanie robots.txt to standard branżowy i dobry sygnał dla ewentualnego sporu prawnego.
Kluczowe wnioski
- Web scraping = automatyczne pobieranie danych ze stron WWW przez programy.
- W Polsce legalny dla danych publicznych, jeśli nie naruszasz praw autorskich i regulaminu strony.
- Najczęstsze zastosowania B2B: lead gen, monitoring cen, SEO, wzbogacanie CRM.
- Zawsze sprawdź robots.txt, używaj user-agent, zachowaj rozsądny rate-limit (max 1 request/s).
Techniki scrapingu - od prostych po zaawansowane
1. Scraping statycznego HTML
Najprostszy przypadek. Strona ładuje pełną treść w pierwszym requeście. Wystarczy requests + BeautifulSoup w Pythonie lub cheerio w Node.js. Tak działa większość katalogów firm i blogów.
2. Scraping stron z JavaScriptem
Nowoczesne aplikacje (React, Vue, Angular) renderują treść po stronie klienta. requests dostanie pustą skorupkę HTML. Trzeba uruchomić headless browser - Selenium, Playwright lub Puppeteer. To wolniejsze i zasobożerne, ale działa wszędzie.
3. Scraping API ukrytych w XHR
Często strona renderuje dynamicznie, ale dane pobiera z własnego API JSON. Otwierasz DevTools, zakładkę Network, znajdujesz endpoint API - i scrapujesz bezpośrednio API, omijając renderowanie. Szybciej, czystsze dane.
4. Scraping z rotacją proxy i captcha-solver
Niektóre strony mają zaawansowaną ochronę - Cloudflare, hCaptcha, fingerprinting. Wtedy potrzebne są rezydencjalne proxy (np. Bright Data, Oxylabs), captcha-solvery (2Captcha, Anti-Captcha) i bardzo ostrożne timingi. Tu wchodzimy w obszar, gdzie samodzielne pisanie scrapera bywa droższe niż zlecenie usługi.
Kiedy zlecić scraping zamiast pisać samemu
Pisanie własnego scrapera ma sens, jeśli:
- masz programistę w zespole,
- scrapujesz jedną stronę regularnie i znasz jej strukturę,
- skala jest mała (do 10 tys. rekordów),
- możesz poświęcić tydzień na development + utrzymanie.
Zlecenie usługi się opłaca, jeśli:
- skrobiesz wiele różnych źródeł (Google + Maps + LinkedIn),
- potrzebujesz powtarzalnych dostaw co tydzień/miesiąc,
- strona ma zaawansowaną ochronę (Cloudflare, captcha),
- chcesz mieć dane oczyszczone, zdeduplikowane, zweryfikowane,
- nie chcesz w ogóle myśleć o aspekcie prawnym - dostawca bierze to na siebie.
Co to jest scraping - najczestsze pytania
Co to jest scraping i czy jest legalny?
Co to jest scraping - to automatyczne pobieranie danych ze stron WWW. Legalnosc zalezy od trzech rzeczy: czy strona udostepnia te dane publicznie, czy respektujesz robots.txt oraz czy nie naruszasz praw autorskich. Dla danych publicznych B2B (firm, kontaktow) scraping jest co do zasady legalny.
Czy mogę scrapować LinkedIn?
LinkedIn aktywnie blokuje scrapery i ma w ToS zakaz. Technicznie się da, ale prawnie ryzyko sporu z LinkedInem jest realne (zob. sprawę hiQ Labs vs LinkedIn). Bezpieczniej kupić dane od dostawców, którzy mają umowy z LinkedIn (np. PhantomBuster, Apollo).
Czy scraping Google jest legalny?
Wyniki wyszukiwarki to dane publiczne - scrapowanie nie jest zabronione prawem polskim. Google ma w ToS zakaz, ale w praktyce kara to tylko blokada IP. Komercyjne narzędzia (SerpAPI, DataForSEO) używają oficjalnych ścieżek.
Czy mogę użyć scrapowanych danych do cold mailingu?
Tak, jeśli to dane firmowe (NIP, e-mail kontaktowy firmy) i bazujesz na uzasadnionym interesie RODO. Dane osobowe (e-maile prywatne osób fizycznych) - tylko z dodatkową podstawą prawną.
Ile kosztuje scraping?
DIY - kilkanaście tysięcy złotych za development + utrzymanie + proxy/captcha (300-1500 zł/mies). Usługa - od kilkudziesięciu groszy do kilku złotych za rekord, zależnie od źródła i kompleksowości.
Co dalej
Web scraping to jedno z najpotężniejszych narzędzi lead generation B2B - bo daje dostęp do danych, których inni nie mają. Kluczem do sukcesu jest świadomość prawna, wybór odpowiednich źródeł i techniczna dbałość o nieobciążanie skrobowanych serwerów.
W 444data prowadzimy scraping na zlecenie - od pojedynczego źródła (Google SERP, Google Maps, konkretny katalog branżowy) po wielokanałowy lead pipeline z AI weryfikacją dopasowania. Rozliczenie per rekord, bez abonamentów, z gwarancją jakości danych. Jeśli interesuje Cię konkretny przypadek - napisz, porozmawiamy o tym przed wyceną.
Powiązane: Crawler Google Maps, Baza CEIDG.
Jak sprawdzić dane firmy po NIP - przewodnik krok po kroku
czytaj więcej
Lead generation - co to jest i jak działa w B2B
czytaj więcej
Przykłady cold mailingu - gotowe szablony i sekwencje B2B
czytaj więcej
