Big data nos libera de las limitaciones.
Contenidos
Big data nos libera de las limitaciones de usar pequeñas muestras de datos para representar poblaciones enteras.
Antes de nuestra era tecnológica actual de Internet y la informática, la información era mucho más difícil de recopilar y registrar. En consecuencia, podríamos recopilar solo cantidades muy limitadas de información y luego tratar de interpretarlas lo mejor que podamos.
Por ejemplo, supongamos que deseas realizar una encuesta telefónica a los votantes para una próxima elección local. Claramente, sería imposible contactar a toda la población, por lo que llamas a unos cientos de personas y supones que sus respuestas reflejan las opiniones de toda la población. Este enfoque se llama muestreo: tomas una muestra de todos los datos y esperas que sea representativa del conjunto.
Pero, ¿qué pasaría si un periodista se te acercara después de haber realizado la encuesta y te pidiera que predigas los votos de un segmento específico de la población, por ejemplo, los servidores públicos?
Al revisar tus datos, descubres que has encuestado solo a diez de esas personas y, por lo tanto, no puedes hacer predicciones muy confiables.
Luego se te pregunta acerca de un subgrupo aún más específico, digamos, servidores públicos menores de 30 años. Esta vez has consultado a una sola persona y, por lo tanto, no puedes hacer ninguna predicción.
Este es el problema inherente al muestreo: cuando comienzas a examinar subgrupos de datos cada vez más pequeños, rápidamente encontrarás que no tienes suficientes observaciones para sacar conclusiones significativas.
En un mundo de big data, la información es mucho más fácil de recopilar porque tenemos acceso a mucha más información, o en algunos casos a toda. Es por eso que en una versión de grandes datos de tu encuesta electoral, probablemente tendrías información sobre las preferencias de votación de decenas de miles de personas, posiblemente incluso todos en tu ciudad. Esto haría posible “acercar” en subgrupos en los datos casi sin fin.