The Third Party Diary
Lonneke van der Velden, augustus- oktober 2012
Introductie
De 'Third Party Diary' is een verkenning naar de bedrijvigheid van derden achter overheidswebsites. Het onderzoek geeft een indicatie van de aanwezigheid van zogenaamde 'third party elements' (3pes) in het websiteregister van de Rijksoverheid en wordt maandelijks bijgehouden. Het begrip 'third party elements' verwijst naar technieken achter websites die data van bezoekers verzamelen en analyseren, bepaalde functies mogelijk maken (denk aan "share", "like", etc.), of data doorsturen naar advertentiebedrijven. De term is afkomstig van de browser plugin
Ghostery die een aantal van deze technieken zichtbaar maakt met een eigen classificatiesysteem. [1] Het '
Websiteregister Rijksoverheid' laat zien dat de Rijksoverheid de verantwoordelijkheid heeft over ongeveer 1100 websites.Deze domeinnamen zijn niet allemaal in eigendom van de Rijksoverheid, maar wordt wel gepresenteerd als zijnde in beheer van de Rijksoverheid. De lijst is aan updates onderhevig. Dit Websiteregister Rijksoverheid is met behulp van een online tool, de ‘Tracker Tracker’, ontwikkeld door het
Digital Methods Initiative (DMI), gecontroleerd op de aanwezigheid van 3pes. De software maakt hierbij gebruik van het principe van Ghostery. Meer informatie over de tool (bèta) is beschikbaar op de
Tracking the Trackers Workshop-pagina.
De Rijksoverheid werd onlangs bekritiseerd omdat ze, vanwege het gebruik van cookies op de websites rijksoverheid.nl en government.nl, niet zou voldoen aan wat ook wel de nieuwe “cookiewetgeving” wordt genoemd (
Telecommunicatiewet, Artikel 11.7a), de wet die bepaalt dat toestemming vereist is wanneer men zich toegang verschaft tot randapparatuur van een gebruiker om data te verzamelen of op te slaan. Op 9 augustus 2012 berichtte
de Rijksoverheid daarom de cookies op deze twee websites uit te schakelen en te inventariseren of aanpassingen nodig zijn op overige websites in haar beheer.
Dit onderzoek geeft iedere maand een overzicht van welke Third Party Elements te vinden zijn in het websiteregister. Of voor de aangetroffen 3pes ook toestemming moet worden gevraagd aan de internetgebruiker, is afhankelijk van de functie van het 3pe. De resultaten geven alleen een indicatie van de hoeveelheid partijen en type bedrijven die een relatie onderhouden met de websites op deze lijst. Aangezien
OPTA een aantal overheidsinstanties heeft aangeschreven over de toestemmingsregeling op hun websites, is er de komende maanden een verandering te verwachten in de aanwezigheid van 3pes. Deze pagina bevat de uitleg over de gebruikte methode en relevante bestanden. Het dagboek wordt bijgehouden op
http://thirdpartydiary.net.
Onderzoeksvraag
Welke 'third party elements' (3pes) zijn aanwezig in het webregister Rijksoverheid?
Methode
- De gehele url-lijst uit het websiteregister is (in batches van 100 urls) ingevoerd in de Tracker Tracker Tool.
- De ‘triangulation tool’ is gebruikt om de resultaten te vergelijken met de originele lijst om websites met en zonder third party elements te bepalen.
- Indien in de output dezelfde 3pes meer dan een keer voorkwamen per domeinnaam zijn deze verwijderd. (De output kan 3pes meerdere malen detecteren in verschillende ‘patterns’ van dezelfde url.)
- Vanwege foutmeldingen in de output (sommige websites leken niet met de server te verbinden) zijn zowel de foutmeldingen als output die aanvankelijk ‘3pe-vrij’ leek te zijn, nogmaals gecontroleerd met en zonder ‘www.’ voor de domeinnaam.
- Naar sommige van de foutmeldingen is nog handmatig gekeken (naar typefouten).
- Op valspositieven is handmatig en steeksproefsgewijs gecontroleerd.
- Het onderzoek wordt maandelijks herhaald. In september is echter niet meer gebruik gemaakt de gehele url-lijst uit het websiteregister, maar alleen van de actieve domeinnamen in deze lijst.
Ghostery onderscheidt onderstaande 3pe’s (
http://www.knowyourelements.com):
- Advertiser (AD): a 3pe that delivers advertisements
- Analytics (AN): a 3pe that provides research/analytics for website publishers
- Tracker (T): a 3pe that exists only to track user behavior
- Widget (W): 3pes that provide some kind of page function (comment forms, "Like" buttons, ...)
- Privacy (P): 3pes that disclose data practices involved in delivering an ad.
De Tracker Tracker output geeft per domeinnaam de naam van het 3pe en het type. Deze zijn in onderstaand screenshot voor de duidelijkheid gekleurd: Advertiser (rood), Tracker (paars), Analytics (blauw), Widgets (geel). Privacy is niet gedetecteerd.
Augustus
Resultaten eind augustus 21.08.12-03.09.12
Op ongeveer 60% (696 domeinnamen) zijn third party elements aanwezig. In totaal zijn er rond de 856 third party elements gedetecteerd van 38 bedrijven. Op iets meer dan 400 domeinnamen werden geen third party elements aangetroffen, wat overigens niet betekent dat ze er niet zijn, aangezien Ghostery’s detectiemethode
niet helemaal compleet is.
In onderstaande visualisaties is te zien wat de relatieve aanwezigheid is van de verschillende 3pe’s, dat wil zeggen: hun aantal in verhouding tot het totaal aantal 3pe’s. Wat men hieruit kan opmaken is dat een relatief klein aantal bedrijven een groot aantal 3pes heeft op de websites van de Rijksoverheid. Dit strookt met ander onderzoek waaruit blijkt dat er op top websites een concentratie is van een weinig aantal bedrijven met veel verschillende analyse- en trackingstechnieken (Hoofnagle et al. 2012).
Relevante bestanden:
Hieronder een visualisation of the relatieve aanwezigheid van 3pes. De grootte verwijst naar de hoeveelheid 3pes; de kleur naar het type.
Soms blijken verschillende 3pes van hetzelfde bedrijf te zijn. Onderstaande visualisatie geeft een indicatie van de deelname van verschillende bedrijven achter de 3pes, op basis van welke 3pes onder hun hoede vallen (voor zover bekend).
Vergelijking met resultaten 9-11 Augustus 2012
Na
vergelijking met de resultaten uit een eerder onderzoeksproject (9-11 Augustus) blijkt dat bij 11 domeinnamen de 3pes waren verwijderd, of er moet nu een toestemming aan vooraf gaan. Bijvoorbeeld: bezoekers van werkenbijdeoverheid.nl kregen t/m 9 augustus te maken met
Kissinsights van Kissmetrics en daar wordt ten tijde van het tweede onderzoek (21 augustus - 3 september) toestemming voor gevraagd. Ook bleken er domeinnamen te zijn met 3pes die in het eerdere onderzoek niet opmerkt waren.
September
Resultaten 27.09.12-01.10.12
Het websiteregister van de Rijksoverheid bleek ge-update op 17 september 2012. De totale lijst bestaat nu uit 1088 websites. Daarvan zijn 913 sites actief. De rest is niet actief of verwijst door naar de site van een hostingbedrijf. Op ongeveer 658 van de 913 actieve domeinnamen zijn third party elements aanwezig. Dat is bijna 72% van de actieve domeinnamen (en 60% van het gehele website register). In totaal zijn er 803 third party elements gedetecteerd van 36 third party elements.
Relevante bestanden:
Oktober
Resultaten 30.10.12
Het websiteregister is deze maand opnieuw ge-update en omvat nu 1052 websites. Daarvan bevatten 588 domeinnamen third party elements (3pes). Voor zover bekend zijn het er 721 third party elements in totaal. Aangezien er slechts 925 sites actief waren, gaat het om 64% van het aantal actieve domeinnamen en om 56% van het gehele websiteregister. Op 337 sites zijn geen 3pes gedetecteerd.
Relevante bestanden:
De lijst met sites zonder 3pes volgt nog na controle op valspositieven.
November
Resultaten 29.11.12 - 04.12.12
Eind november bevatte het websitearchief in totaal 1129 sites. Vergeleken met oktober waren er een aantal nieuwe domeinnamen met 3pes. Daarvan hebben 13 domeinnamen vermoedelijk pas recentelijk de 3pes toegevoegd. (De overige 30 domeinnamen zaten niet het websitearchief van oktober, dus mogelijk waren die third parties er eerder ook al, alleen had de Rijksoverheid de betreffende domeinnamen niet geregistreerd als sites in hun beheer).
Het gaat om 598 domeinnamen en in totaal 728 3pes. Dat is nog steeds bijna 53% van gehele websiteregister van de Rijksoverheid. De 3pes komen voor in 34 verschillende soorten.
Relevante bestanden:
Opmerkingen
Dit project is een momentopname aangezien websites continu aan veranderingen onderhevig zijn. Verder heeft het onderzoek zich vooralsnog alleen gericht op de primaire domeinnamen van websites. Naar de sub-pagina’s in de websites is nog niet gekeken. De resultaten van dit onderzoek zijn daarom te zien als een handvat om verder onderzoek te doen naar onderdelen van de output en niet als een definitieve representatie van de aanwezigheid van derden.Tijdens het onderzoek in augustus is gebleken dat er veel 'vals negatieven' uit de Tracker Tracker Tool kwamen. Ook waren drie vals positieven geconstateerd (twee keer Omniture en een keer
OpenX). Daarom zijn in het onderzoek in september correcties doorgevoerd door te werken met slechts de actieve domeinnamen en vervolgens de vals positieven, voor zover bekend, uit de resultatenlijst te verwijderen.
Matthijs Koot van Madison Gurkha heeft eind september een verwant onderzoek uitgevoerd en komt in het paper '
A Survey of Privacy & Security Decreasing Third-Party Content on Dutch Websites' tot vergelijkbare resultaten.
De tool is mogelijk gemaakt dankzij een collaboratief project tijdens de Digital Methods Winter School 2012, "
Interfaces for the Cloud", en aan dit onderzoek zijn veel kritische opmerkingen en suggesties van anderen voorafgegaan, waarvoor veel dank! Met name aan Erik Borra en Frederik Zuiderveen Borgesius voor het meedenken over het onderzoek, Sabine Niederer met tips over visualisering en Matthijs Koot voor de feedback op de url-lijst.
Suggesties voor verder onderzoek
Onderdelen van de output zijn interessant voor verder onderzoek. Bijvoorbeeld: welke domeinnamen gebruiken dezelfde third party elements?
Met behulp van Gephi kunnen clusters geanalyseerd worden tussen third party elements en domeinnamen. Zie vergelijkbaar onderzoek om 'tracking ecologies' in kaart te brengen op de wikipagina over de
Tracker Tracker en het werk van Anne Helmond en Carolin Gerlitz: '
Reworking the fabric of the web: The Like Economy', Unlike Us Conference 2012.
Literatuur en andere relevante bronnen
Helmond, Anne and Carolin Gerlitz (2011). ‘Hit, Link, Like and Share. Organizing the social and the fabric of the web in a Like economy.’ Paper presented at the Digital Methods Winter School 2011 Conference at the University of Amsterdam, January 24-25, 2011.
[blog post] & [
pdf]
Hoofnagle et al.
Behavioral Advertising: The Offer You Cannot Refuse. 6 Harvard Law & Policy Review 273 (2012).
Zuiderveen Borgesius, F.J.
De nieuwe cookieregels: alwetende bedrijven en onwetende internetgebruikers? In: Privacy & Informatie (P&I); jaargang 14 : nr 1 ( 2011)
More information about the tool in the Track the Trackers Workshop:
https://wiki.digitalmethods.net/Dmi/WorkshopTrackingtheTrackers. Zie ook de workshop slides:
http://www.slideshare.net/digitalmethods/tracking-the-trackers-workshop-slides
Anne Helmonds project over trackers op websites van politieke partijen:
http://www.annehelmond.nl/2012/06/11/trackers-gebruikt-op-de-websites-van-nederlandse-politieke-partijen-in-kaart-gebracht/
Helmond, A. & Gerlitz, C. - Reworking the fabric of the web: The Like economyfrom
network cultures on
Vimeo.
De
US cookie fine.
[1] De term 3pe komt van Ghostery. Ghostery gebruikt ook wel eens de term ‘trackers’, refererend naar ‘web tracking technologies’. Hier is gekozen voor ‘third party elements’ zodat er geen verwarring kan ontstaan met de term ‘tracking cookie’: Ghostery detecteert namelijk meer technieken dan alleen cookies, en ook ‘cookies’ die geen ‘tracking cookies' zijn, dat wil zeggen, cookies die zich beperken tot het analyseren van data op één website en die niet aan ‘cross-website tracking' doen.