¿Qué es BIG DATA y para que sirve?
"Los frutos de la sociedad de la información están bien a la vista, con un teléfono móvil en cada bolsillo, un ordenador portátil en cada mochila, y grandes sistemas de tecnología de la información funcionando en las oficinas por todas partes. Menos llamativa resulta la información en sí misma. Medio siglo después de que los ordenadores se propagaran a la mayoría de la población, los datos han empezado a acumularse hasta el punto de que está sucediendo algo nuevo y especial. No solo es que el mundo esté sumergido en más información que en ningún momento anterior, sino que esa información está creciendo más deprisa. El cambio de escala ha conducido a un cambio de estado. El cambio cuantitativo ha llevado a un cambio cualitativo. Fue en ciencias como la astronomía y la genética, que experimentaron por primera vez esa explosión en la década de 2000, donde se acuñó el término big data, 'datos masivos'. El concepto está trasladándose ahora hacia todas las áreas de la actividad humana".
El párrafo anterior pertenece al libro Big Data, la revolución de los datos masivos, escrito por el profesor de regulación y gestión de internet en la Universidad de Oxford Viktor Mayer-Schönberger y por el periodista de The Economist Kenneth Cukier.
Para entender qué significa "Big Data", conviene conocer algunos antecedentes históricos. A continuación, ofrecemos la definición de Gartner, del 2001 y que sigue siendo la definición de referencia: "Son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se conoce como las tres V". Dicho de otro modo, cuando hablamos de Big Data hablamos de magnitudes físicas del dato.
#1 Volumen
El mundo digital y conectado hace que se doble el número de datos disponibles cada tres años. El Big Data permite procesarlos en paralelo y por tanto hace viable lo que antes era imposible: manejar un volumen de datos inmenso.
#2 Velocidad
La velocidad se refiere a dos aspectos: en primer lugar la capacidad de mover una enorme cantidad de datos a la vez y en segundo lugar su latencia, su tratamiento y análisis en tiempo real incluso.
#3 Variedad
Fuentes diversas se unen para ofrecer un almacenamiento y un análisis común: fotografías, textos, datos internos de las empresas, textos, opiniones en foros y redes sociales, etc.
Sin embargo, en base a la experiencia adquirida por las empresas pioneras en esta ciencia, se ha ampliado la definición original, con nuevas características como son la Veracidad y Valor del dato (5Vs). Uno de los grandes problemas de la profusión de datos es su fiabilidad, su calidad (errores, inconsistencias, duplicidades) o el ruido (datos irrelevantes). Sin una adecuada depuración no podemos pensar en conclusiones. De datos con errores nacen conclusiones erróneas.
El uso de datos masivos ha cambiado muchas cosas y cambiará aspectos fundamentales de la ciencia y por supuesto del marketing. En primer lugar, las preguntas adecuadas. Viktor Mayer y Kenneth Cukier lo explican muy bien. Ha habido hasta ahora una obsesión por la causalidad, por una pregunta: ¿Por qué?
Los datos masivos buscan sin embargo qué ocurre, correlaciones que permiten predecir. Google mostró a la OMS un ejemplo con el estudio de la propagación de la gripe. Google creó un sistema de predicción de la propagación de la gripe tras analizar cientos de millones de modelos. Encontró 45 términos de búsqueda asociados en el tiempo a la propagación de la gripe.
Pero la aplicación de los datos masivos en la ciencia no ha hecho más que comenzar. La Universidad de Málaga participa en un estudio con Big Data del genoma. El cambio consiste en evitar las hipótesis para centrarse en qué ocurre, en las correlaciones entre búsquedas y expansión de la gripe o entre determinados genes o sus mutaciones y determinadas enfermedades o… El número de ejemplos es infinito.
También en marketing: los datos masivos permiten predecir comportamientos en base al estudio de una cantidad ingente de datos. Al detalle. Contra el sentido común, cuántos más datos ahí, la granularidad del análisis crece. Las muestras dejan grupos, nichos, con tan pocos representantes que no podemos sacar ninguna conclusión. Ahora sí, ahora establecemos correlaciones y predicciones sobre esos detalles que antes se escapaban.
Predecir y medir ingentes cantidades de datos es el paso previo e imprescindible para el sueño de cualquier marketero o proveedor de contenidos: la personalización. Sabemos cómo se comporta el cliente o el usuario, qué le gusta y qué no le gusta, si es rentable, buen pagador o le encanta nuestra marca o producto. También sirve para la prevención del fraude en las tarjetas de crédito, en base a patrones de comportamiento de compra del usuario, o incluso decisiones operativas a partir de las opiniones de los clientes o búsqueda de tendencias, diseño de productos, detección de necesidades ...
A partir de ahí, con toda esta información, todo es más fácil. O al menos reduce considerablemente la incertidumbre de las decisiones. Si necesitas tomar decisiones en tiempo real, tu volumen de datos es enorme o tus fuentes de datos son diversas, entonces necesitas Big Data.