Wat is data science?

Het laatste jaar is het begrip data science snel bekender geworden. Sommigen stellen dat statistiek binnenkort een ‘sexy’ baan zal zijn. Mooi nieuws, want ik eerder al het volgende: over 30 jaar is de helft van de bestaande banen overbodig. Ook het feit dat steeds meer apps datagedreven zijn, geeft aan dat data science, en zeker Big Data, belangrijk wordt. Maar waarom opeens al die aandacht voor statistiek en data? Wat is data science en wat doet een data scientist?

Bijna elke e-commerce applicatie is een datagedreven applicatie. Er is een database achter de webpagina, middleware die communiceert met andere databases en er zijn datadiensten (zoals credit card processing, bankbetalingen, etcetera). Maar het slechts ‘dom’ gebruiken van beschikbare data is niet wat we met data science bedoelen. Data science is het genereren van nieuwe data uit bestaande data. De uitkomst is dus geen dienst maar een informatieproduct.  Data science maakt de creatie van nieuwe dataproducten mogelijk.

Bedrijven als Google, maar ook Facebook en LinkedIn weten als geen ander hoe je uit bestaande informatie, nieuwe waardevollere informatie kan creëren. Het zijn producenten van allerlei informatieproducten, die ze creëren uit de data die alle gebruikers hen (gratis) toevertrouwen. Ook Amazon bewaart van elke aankoop de kopersinformatie en weet waarnaar je gezocht hebt en combineert al je interesses tot een ‘dataprofiel over jezelf’. Een klant is geen persoon meer, maar een dataproduct dat continu data genereert. Een steeds langere sliert van data, elke keer als ‘het dataproduct’ inlogt.

Dataproducten
Die sliert van groeiende data heeft waarde. Veel waarde. En hoe slimmer we de verschillende slierten kunnen combineren, des te meer nieuwe, waardevolle dataproducten we kunnen creëren. Of het nu aankopen, zoektermen, product- reviews of zelfs voice samples van telefoongesprekken zijn: de klant is onderdeel geworden van een datageneratieproces dat we nog nauwelijks kunnen bevatten.

Dit is het gebied waar data science zich op richt. Waardevolle informatie genereren uit die onmetelijke hoeveelheid data die we met zijn allen elke dag generen. En niet alleen wij als mensen. Ook voorwerpen generen data. Auto’s worden door camera’s geregistreerd, postpakketjes worden wereldwijd gevolgd, mobiele telefoons worden continu getraceerd. De hoeveelheid bestanden/files die voorwerpen generen, is zelfs groter dan onze menselijke productie.

De informatie die we op deze wijze uit data halen, kunnen we weer combineren of ‘mashen’ met andere informatie, verzameld uit andere data. Deze mogelijkheden zijn in feite oneindig. Onze creativiteit is te beperkt om ons voor te stellen welke combinaties allemaal mogelijk worden. En juist dit vakgebied is nog relatief braakliggend.
Daarom staat data science zo in de belangstelling? Er zijn naar mijn mening veel te weinig mensen die van dit vakgebied iets afweten. Het vak ‘data scientist’ vereist bovendien enkele hele specifieke vaardigheden. Het is vergelijkbaar met het vak van elektronicus in de jaren 60 van de vorige eeuw; we weten dat we met de transistor en de chip iets heel nieuws in handen hebben, maar we weten nog absoluut niet wat er allemaal mee mogelijk is.

Eigenschappen data scientist
In de eerste plaats verlangen we van een data scientist dat zij of hij capabel is op het gebied van traditionele dataverwerking, data-analyse en computerkunde. Daarnaast natuurlijk kennis van statistiek en wiskunde. Dit klinkt in eerste instantie als een wat stoffig en nerd-achtig profiel. Maar een data scientist moet ook andere eigenschappen hebben. Hij of zij moet nieuwsgierig zijn, nieuwe dingen willen ontdekken en willen puzzelen of nieuwe combinaties iets ‘nieuws’ opleveren. Dus inventief, creatief en onderzoekend.

Tenslotte moet hij of zij het grote geheel in het oog houden.  Niet verzanden in diepe zoektochten die geen waarde meer toevoegen. Weten wat het business belang is om bepaalde combinaties te willen weten. Dus een professionele en ondernemende opstelling. Weten wat de waarde van data en de daaruit te generen informatie is.

Dus een hele nieuwe rol. Met vaardigheden die we nog maar beperkt kennen en ontwikkeld hebben. Data scientists combineren ondernemerschap met geduld, met de bereidheid contentieus en detaillistisch dataproducten te bouwen, op incrementele wijze, dus stap voor stap. Zij zijn in staat te onderzoeken en oplossingen te itereren tot iets bruikbaars. Ook moeten data scientists interdisciplinair zijn, omdat data science in elk vakgebied een belangrijke rol zal gaan spelen. Vanaf datacollectie tot en met de conclusie over de uitkomsten.

Aha-erlebnis
Kortom, net zoals in de vorige eeuw de ontwikkeling van de elektronica en de opkomst van de elektronicus ons de aha-erlebnis bracht dat we met elektriciteit ook intelligente processen konden opbouwen, levert Big Data en data science de aha-erlebnis dat we met data clouds en cloud computing een hoger niveau van informatie-intelligentie kunnen ontwikkelen. De toekomst is dan ook aan de bedrijven die het beste weten hoe data te verzamelen, die data te kunnen analyseren en daaruit nieuwe innovatieve data- producten weten te generen.

The new Intel inside
Hal Varian zei 5 jaar geleden: “The ability to take data – to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it – that’s going to be a hugely important skill in the next decades.” Hij noemde het de “new Intel inside”. Volgens mij heeft hij helemaal gelijk. Data is het nieuwe Intel inside.

* Deze blog is gebaseerd op het artikel van Mike Loukides: What is data science? Dit uitgebreide Engelstalige artikel kunt u via deze link vinden.

About the Author: Hans Timmerman

Hans Timmerman (1953) is als CTO binnen Dell EMC Nederland verantwoordelijk voor de ontwikkeling en verdieping van zowel Dell EMC's lokale business en technology development als voor de bestaande strategische allianties en partnerships. Een groot deel van zijn carrière was Hans werkzaam in de Nederlandse vliegtuigindustrie. Daarna bekleedde hij bij verschillende IT-bedrijven management- en directiefuncties.