Grandes conjuntos de datos más desordenados.
Contenidos
Grandes conjuntos de datos más desordenados pueden ser más útiles que los más pequeños y precisos.
Mientras intentaban desarrollar un programa de traducción de idiomas en la década de 1980, los ingenieros de IBM tuvieron una idea novedosa. Decidieron prescindir del método estándar de usar reglas gramaticales y diccionarios y, en cambio, permitieron que la computadora confiara en probabilidades estadísticas para calcular qué palabra o frase se solicitó, en función de las muestras de texto traducido que ingresaron.
Los ingenieros de IBM decidieron usar una muestra grande pero limitada de datos de alta calidad, usando tres millones de pares de oraciones de traducciones oficiales de documentos parlamentarios canadienses. A pesar de los primeros resultados prometedores, el proyecto fracasó. Aunque el sistema podía proporcionar traducciones confiables para las palabras y frases usadas con mayor frecuencia, era menos confiable para aquellas que ocurren con poca frecuencia. El sistema falló, a pesar de la calidad de los datos. El problema era la cantidad, simplemente no había suficiente.
Cuando tenemos solo una pequeña proporción de los datos, las imprecisiones pueden ser un gran problema, especialmente cuando queremos ver los resultados que ocurren con poca frecuencia. Pero a medida que avanzamos para tener proporciones de datos significativamente más altas, las imprecisiones tienen un efecto mucho menor en los resultados.
Menos de una década después del intento fallido de IBM, Google decidió abordar el problema de la traducción con un enfoque ligeramente diferente. Decidieron usar un conjunto de datos mucho más grande de calidad cuestionable: todo el Internet global. Su sistema recorrió la web y utilizó cualquier traducción que pudiera encontrar, que ascendía a miles de millones de páginas de texto. A pesar de la dudosa calidad de la entrada, el gran volumen de datos hizo que las traducciones del sistema fueran más precisas que las de cualquier sistema rival.
El tamaño de los conjuntos de datos que podemos tener con Big Data nos permite ser más indulgentes en términos de inexactitudes en los datos; tener una proporción tan grande de los datos disponibles minimiza el efecto de cualquier inexactitud.