Web scraping: Meta suit triggers ethisch debat


Facebook Facebook eigenaar Meta heeft aangeklaagd Octopus, een Amerikaanse dochteronderneming van een Chinese tech bedrijf en een individu uit Turkije voor het schrapen van gegevens van Facebook, Instagram en andere grote tech platforms triggering het debat op zijn ethische kant, evenals de voordelen.

Met meer dan Facebook biedt Octopus scraping services aan voor een vergoeding om gegevens van Amazon, eBay, Twitter, Yelp, Google, Target, Walmart, inderdaad, LinkedIn, Facebook en Instagram te schrapen.

De Instagram-accounts in Turkije werden gebruikt om gegevens van 350.000 Instagram-gebruikers te schrapen en te publiceren op zijn eigen websites of “ceclone-sites”.

De software is in staat te schrapen gegevens over de Facebook gebruikers, e-mailadressen, telefoonnummers, geslacht en geboortedatum en Instagram, was het verzamelen van gegevens over de volgelingen van informatie, zoals naam, gebruikers-profiel-URL, de locatie en het aantal likes en comments per post.

Facebook Instagram meta heeft de dreiging van het klonen voor lang bestreden en is erin geslaagd om 100 verschillende Instagram kloon sites te verminderen tot tien nu als de geschraapte gegevens wordt misbruikt om scam mensen, en schade aan de geloofwaardigheid van de oorspronkelijke Facebook of Instagram sites van meta.

In feite hielp het schrapen van gegevens covid-19 monitoring wereldwijd en profiteerde onderzoekers in medische, juridische en zelfs in milieubescherming.

Gegevens schrapen tijdens pandemie
Zoals velen zich zullen herinneren, creëerden Ensheng Dong en zijn team aan de Johns Hopkins University in januari 2020 een Covid 19-Dashboard, dat de barometer werd voor de regeringen en wetenschappers wereldwijd.

Een systeemingenieur aan de universiteit in Baltimore, Maryland, Dong en zijn team vonden schrapen nuttig om gegevens te krijgen van Wuhan in China, waar de uitbraak van Covid-19 voor het eerst werd gemeld.

Toen de uitbraak een pandemie werd en het Covid-19-Dashboard de enige authentieke bron werd die een groot deel van schaalbaarheid vereiste, wendden Dang en zijn team zich tot webschraping om informatie van duizenden websites vast te leggen en te rapporteren in een spreadsheet zonder menselijke tussenkomst.

“Voor het eerst in de menselijke geschiedenis kunnen we in real time volgen wat er aan de hand is met een wereldwijde pandemie,” vertelde Dong aan Nature.

Evoluerende tool voor onderzoekers
Web schrapen is niet nieuw. Alex Luscombe, een criminoloog aan de Universiteit van Toronto in Canada, gebruikt schrapen om de rechtshandhavingspraktijken in het land te controleren, terwijl Phill Cassey, een conservatiebioloog aan de Universiteit van Adelaide in Australië, is bezig met het volgen van de wereldwijde handel in wilde dieren op internetforums met schrapen.

Georgia Richards, een epidemioloog aan de Universiteit van Oxford, Verenigd Koninkrijk, onderzoekt de rapporten van lijkschouwers voor vermijdbare doodsoorzaken. “Er zijn zoveel bronnen en zoveel informatie online beschikbaar”, zegt Richards. “Het zit daar gewoon te wachten tot iemand er gebruik van maakt.”

Nu, schrapen is geëvolueerd met geavanceerde tools die commercieel beschikbaar zijn bij serviceproviders zoals Mozenda en ScrapeSimple die $250 per maand voor schrapen.

Maar veel academici geven nog steeds de voorkeur aan open-source alternatieven zoals het mooie Soeppakket, of Selenium, en RSelenium, waar ze verder op deze platforms kunnen bouwen om ze aan te passen.

Web schrapen heeft zijn eigen uitdagingen
Zo vond Cassey het toezicht op de illegale verkoop van dieren veel dynamischer. Forums die dergelijke transacties hosten verschijnen en verdwijnen zonder waarschuwing en de daders gebruiken dubieuze en misleidende namen voor planten en dieren. Voor een bepaalde papegaaiensoort, zei het team dat het 28 ‘handelsnamen’heeft gevonden.

Chaowei Yang, een geospatiale onderzoeker aan de George Mason University in Fairfax, Virginia, noemt een andere uitdaging omdat de meeste gegevens zijn opgesloten in PDF-documenten en JPEG-beeldbestanden, die niet kunnen worden ontgonnen met behulp van conventionele schrapen gereedschappen.

Sommige websites weigeren om gegevens legaal te delen. “Ik werk tegen tonnen van krachtige strafrechtelijke instanties die echt geen interesse hebben in mij met gegevens over het ras van de mensen die ze arresteren,” zegt Yang.

Onderzoekers aan het Universitair Ziekenhuis van Saint-Étienne in Frankrijk anonimiseerden gebruikers-ID ‘ s bij het schrapen van medische forums om drugsgerelateerde bijwerkingen te identificeren.

Maar het gevaar van contextaanwijzingen kan nog steeds hun identiteit onthullen, zegt Bissan Audeh, die als postdoctoraal onderzoeker in Bousquet ‘ s lab meewerkte aan de ontwikkeling van de tool. “Geen anonimisering is perfect”, zegt ze.

Toch wordt het respecteren van de regels van ethisch schrapen beschouwd als best practice, hoewel het een langdurig proces betekent en zo goed als handmatig schrapen.

Zelfs het Johns Hopkins Covid Dashboard team geconfronteerd met soortgelijke ethische vragen als de gegevens geschrapt dringend nodig fact-check voor nauwkeurigheid, dus, die een leger van meertalige vrijwilligers om covid-19 rapporten van elk land te ontcijferen.