Mittwoch, 20. Februar 2013

Big Data

Blicklog verlinkt auf einen Beitrag von Nassim Taleb, in dem dieser über die Probleme mit "Big Data" schreibt.

Taleb warnt davor, dass die immer reichhaltigere Verfügbarkeit verschiedener Variablen in Unternehmen zu vermehrten Fehlschlüssen, was Beziehungen zwischen diesen Variablen angeht, führen könnte.
"But beyond that, big data means anyone can find fake statistical relationships, since the spurious rises to the surface. This is because in large data sets, large deviations are vastly more attributable to variance (or noise) than to information (or signal). It’s a property of sampling: In real life there is no cherry-picking, but on the researcher’s computer, there is."
Warum?
"Well, if I generate (by simulation) a set of 200 variables — completely random and totally unrelated to each other — with about 1,000 data points for each, then it would be near impossible not to find in it a certain number of “significant” correlations of sorts. But these correlations would be entirely spurious."
D. h. bei der Auswertung von z. B. riesigen Mengen Kundendaten ist große Vorsicht geboten, wenn die Menge an erhobenen Variablen relativ groß ist im Verhältnis zu der Anzahl der teilnehmenden Kunden/der Menge an beobachteten Zeitperioden.


Keine Kommentare:

Kommentar veröffentlichen