Esta es una pregunta a la cual últimamente estoy tratando de encontrar un respuesta. Big Data es un tema puntero en el ámbito de las tecnologías de la información, pero creo que precisamente no es la tecnología el factor clave para el éxito de este tipo de proyectos.
“Un proyecto de Big Data no va a producir ningún beneficio a menos que esté enfocado en un problema específico«Laurie Mills, Experto en IT
No podría estar más de acuerdo con Laurie, el éxito del Big Data no está en poner en primer lugar a la tecnología. El éxito está en saber por qué se está desarrollando un proyecto de este tipo y en enfocarlo en la resolución de un problema específico. Aún en estos casos, este tipo de proyectos pueden tener sus problemas. En un próximo post hablaré sobre el proyecto Google Flu Trends (GFT), proyecto que muchos analistas y gurús de la tecnología ponen como uno de los ejemplos más exitosos del Big Data.
Volviendo a la pregunta inicial y una vez que tenemos claro que el primer punto a considerar es el problema al cual queremos dar una respuesta, es fundamental saber cuáles son las dimensiones principales del Big Data y cuál es el simple proceso sobre el que descansa.
Dimensiones del Big Data
Las dimensiones principales del Big Data son las siguientes:
- Volumen: Tratamiento de grandes cantidades de datos
- Variedad: Gran variedad de fuentes y de tipos de información
- Velocidad: La generación de los datos en On-line y la respuesta tiene que ser ágil y flexible
- Veracidad: Tenemos que asegurar, la precisión y la calidad de los datos
Estas dimensiones están relacionadas con cada una de las cuatro fases que se repiten en este tipo de proyectos. Veamos un poco más detalladamente cada una de estas dimensiones.
Volumen
El Volumen de los datos está relacionado con la fase de “ADQUIRIR” información y datos a nuestros sistemas. Hemos de identificar cuáles serán nuestras fuentes de información y hemos de considerar que el volumen de la misma tendrá un gran crecimiento. Así pues, nuestros sistemas se tendrán que dimensionar pensando en el crecimiento de éstos. Por ejemplo, si consideramos una de nuestras fuentes a Twitter, tendremos que considerar que se generan 500 millones de tuits por día.
Variedad
La variedad de los datos es otro de los factores. En muchos casos se mezclan datos cualitativos y cuantitativos, y de orígenes diversos. Por ejemplo, si tratamos con Twitter dispondremos de datos cuantitativos como número y hora de los tuits, pero también del propio tuit que es un dato cualitativo del cual tendremos que deducir un sentimiento basado en la semántica del mismo.
Esta dimensión está relacionada con la fase de “ORGANIZAR” información. Necesitaremos por tanto estructuras y herramientas adecuadas y que sean capaces de tratar con toda esta información.
Velocidad
La velocidad está relacionada con la fase de “ANALIZAR” la información. Necesitamos poder capturar la información de forma ágil y flexible. Los datos están On-Line y cuanto antes podamos tomar una decisión más ventaja competitiva tendremos. Así pues, la capacidad de reacción es fundamental. Otro tema es la posibilidad de predecir datos a futuro basado en el análisis de las tendencias y de ese tema me gustaría también profundizar en un post posterior.
Veracidad
La veracidad, precisión y calidad de los datos es fundamental para que nuestro proyecto de Big Data tenga éxito. Es claro que aunque tengamos cubiertas perfectamente las otras tres dimensiones una mala calidad de los datos implicará directamente el fracaso del proyecto. Una correlación equivocada de los datos también puede provocar el fracaso y todo nuestro esfuerzo habrá sido inútil. Hemos de tener en cuenta que cuando un sistema no aporta datos fiables rápidamente es abandonado.
Creo por tanto que la parte crítica del proyecto se encuentra en la Veracidad de los datos. Es aquí donde entramos en la principal fase del proyecto que es “DECIDIR”. La construcción de estos sistemas generalmente está destinada a facilitar la toma de decisiones y a generar nuevas oportunidades de negocio.
El proceso de Big Data
Para terminar simplemente resumir el proceso del Big Data que consiste en cuatro fases que se repiten constantemente:
- Adquirir: Capturar la información
- Organizar: Categorizar y estructurar la información
- Analizar: Potencia de análisis en el menor tiempo posible
- Decidir: Disponer de la información precisa y con la calidad necesaria para tomar decisiones
Os dejo aquí nuevamente el enlace a la presentación que resume las cuatro dimensiones del Big Data comentadas en este post