Skip to content

Een scraper die elke week 26.000 Google resultaten verzamelt over Truck Theft

Voor SensiTech, een global supply chain bedrijf gefocust op digital transformation zijn we druk bezig met het automatiseren van een proces. Bij dit proces wordt er door meerdere medewerkers elke week duizenden Google zoekresultaten handmatig afgestruind op zoek naar artikelen over vrachtwagen overvallen/diefstal/etc. Dit moet toch anders kunnen?

Voor SensiTech, een global supply chain bedrijf gefocust op digital transformation zijn we druk bezig met het automatiseren van een proces. Bij dit proces wordt er door meerdere medewerkers elke week duizenden Google zoekresultaten handmatig afgestruind op zoek naar artikelen over vrachtwagen overvallen/diefstal/etc. Dit moet toch anders kunnen?

Wat hebben we gedaan?

Om te zorgen dat dit proces zoveel mogelijk geautomatiseerd wordt hebben we een Google Scraper gebouwd. Deze scraper struint elke week de eerste 10 zoekpagina’s van Google af voor een groot scala aan zoekwoorden voor 13 landen om zo relevante artikelen te vinden. Hierna wordt aan de hand van de artikeltekst ook nog automatisch bepaald waar het incident heeft plaatsgevonden, wat er gestolen is, wat de manier van overval was en meer!

Natuurlijk komt dit niet zonder uitdagingen. Wat doe je bijvoorbeeld als één gebeurtenis op meerdere bronnen besproken wordt? Of als een Google link je leidt naar een website waarop meerdere artikelen gevonden worden? Om dit soort problemen te verhelpen is het essentieel om de applicatie zo ‘streng’ te maken dat hij alleen relevante artikelen doorlaat, maar ook niet te ‘streng’ dat je artikelen weggooit die wel relevant zijn. Het is dan ook essentieel om samen met de klant en onze applicatiebouwer om de tafel te zitten en samen tot de juiste balans te komen.

Welke technieken zijn er gebruikt?

Technieken die we gebruiken zijn Python als codeertaal voor de scraper. De volledige applicatie werkt vanuit een Azure Container instantie (in de Cloud) en de data wordt automatisch ontsloten in een datawarehouse als ook een Azure Blob Container, waar ook verschillende input bestanden aanwezig zijn om de applicatie op een no-code manier te fine-tunen.

Wat hebben we opgelost en opgeleverd?

Het zoeken naar relevante artikelen is erg tijdsintensief als dit met de hand moet gebeuren. Tevens is deze applicatie schaalbaar om gemakkelijk uit te breiden naar andere landen (zonder dat medewerkers de lokale taal hoeven te spreken).

Nu wordt er wekelijks een overzicht van gevonden relevante artikelen als ook tientallen categorisaties over bijvoorbeeld het type event, en de gestolen producten.

Hoe worden de data gepresenteerd?

Alle verzamelde data worden gedisplayd in een PowerBI rapport. Overzichtelijk en efficiënt.

Gebruikte applicaties;

Built on your data

Vandaag de dag wordt er binnen elk bedrijf ontzettend veel data gegenereerd. Datalon helpt u als organisatie door uw data grondig te analyseren en inzichtelijk te maken waar en welke processen er geoptimaliseerd kunnen worden.

Nieuws

Data heeft nog veel verborgen potentieel, samen kunnen we hier meer uit halen. Daarom delen we graag onze ervaringen, inzichten en updates hier. Zo unlocken we samen nog meer data potentieel en dat is 100% onze focus!

Video afspelen
Video afspelen
Video afspelen