Loading...

Werkwijze data scraping

Nadat u heeft bepaald welke data u nodig heeft en waar deze data op het internet te vinden is, controleren we eerst of het mogelijk is om die data te scrapen. Als het scraping mogelijk is, weten we ook welk volume aan data er verzameld moet worden. Wij kunnen dan een prijs afgeven.

Scrapen kan eenmalig gebeuren, maar we hebben ook klanten die dagelijks of wekelijks dat verzameld willen hebben.

Om geautomatiseerd te scrapen, schrijven we een script. We kunnen het script inplannen zodat het op gezette tijden data gaat scrapen.

Waarom kiezen voor Eijdems Internet?

Op de eerste plaats vanwege de ervaring die Eijdems Internet heeft op het gebied van data scrapen. Maar ervaring doet niets als die niet met de klant gedeeld wordt. Wij helpen u met het formuleren van uw data-vraag. We kunnen u wijzen op mogelijkheden waaraan u misschien zelf nog niet gedacht heeft. U krijgt een heldere offerte waarin prijs, leverdatum en omschreven staat welke data u aangeleverd krijgt en in welk format.

Mobiele apps scrapen

Eijdems Internet heeft technieken ontwikkeld om nu ook Mobile App Scraping (MAS) toe te passen. Dit maakt het gestructureerd verzamelen van data in grote volumes mogelijk. Het maakt niet uit of dit een Android, IOS of Windows platform betreft.

App-scraping vereist andere technologie dan het scrapen van websites. Factoren die we bepalen hoe de scraping moet verlopen zijn:

  • Hoe de mobiele app met de server communiceert
  • Welk protocol de app gebruikt
  • Hoe de informatie wordt vrzonden
  • Hoe de app te simuleren op het scraping-platform
  • Hoe de data te lezen en te verwerken

Is het wel toegestaan om data te scrapen?

Het verzamelen van data is volkomen legaal. Het is in feite gewoon gebaseerd op de bekende ”copy-past” techniek.
Wij zullen echter nooit een opdracht aannemen waarbij we zouden moeten inbreken op websites om data te bemachtigen.

Wel is het zo dat sommige websites proberen te voorkomen dat data van hun website afgehaald wordt door onze geautomatiseerde bezoeken aan het platform te blokkeren. Wij kunnen deze blokkade omzeilen door te werken met zogenaamde proxyservers. Hierdoor wordt het platform misleid doordat het lijkt of er steeds een ander IP-adres de website bezoekt.

Wij kunnen Amazon scrapen ondanks tools die Amazon inzet om scrapen te voorkomen.

Wij gebruiken een cloudscraper pakket dat speciaal ontwikkeld is voor het omzeilen van Cloudflare’s anti-bot pagina’s (geïdentificeerd als IUAM of “I’m Under Attack Mode”). We hebben ontdekt dat dit cloudscraper pakket werkt voor het scrapen van Amazon.

Maar ook hebben we oplossingen om Captcha’s te omzeilen. Wanneer onze crawler een captcha ziet, zetten we een URL string terug in de URL wachtrij. Dan wijzigen we random de wachtrij qua volgorde (om het herhaaldelijk versturen van gelijksoortige URL’s in een kortere tijdspanne te vermijden).

Na ieder pagina request, passen we een pauze toe. Met onze ervaring hebben we ontdekt dat een pauze van 0 tot 1 seconde goed werkt.

Scraping met behulp van de programmeertaal Phyton

Python voor scrapen van data is de beste programmeertaal voor het schrapen van Amazon data of data van ander websites/webshops. Python bevat verschillende libraries zoals BeautifulSoup Python en Scrapy.

Wij kunnen met behulp van Python bijvoorbeeld audioboeken scrapen. Het blijft uiteraard belangrijk om bewust te zijn van de wettelijke voorwaarden voordat gestart wordt met scrapen.

Enterprise data crawling services

Eijdems Internet kan data crawling in allerlei soorten websites uitvoeren zoals eCommerce, Sociale Netwerken, Nieuws, Forums, Job Boards. Maakt niet uit of die platforms Anti-Bot Maatregelen en IP Blacklisting gebruiken.

Wij ontwikkelen in onze scripts controles om dubbele gegevens te elimineren, ongeldige gegevens opnieuw te crawlen en superieure gegevensvalidaties uit te voeren door middel van Machine Learning. Dit om de kwaliteit van de geëxtraheerde gegevens te observeren.

Een web crawling platform is geschikt voor zware scrapingsprocessen, die gunstig zou zijn voor Enterprise web crawling.

  • Complexe website crawlen
  • High-speed data crawling
  • Agenderen van scraping taken
  • Hoge kwaliteit van aangeleverde data

BEKIJK ALLE BLOGS