Características de los proyectos de Big Data

Aunque el tamaño para determinar si un conjunto de datos se considera Big Data no está definido "formalmente", la mayor parte de los expertos se refieren a conjuntos de datos que van desde 30-50 Terabytes a varios Petabytes.

  • La complejidad del Big Data se debe principalmente a la naturaleza no estructurada de gran parte de los datos generados por las tecnologías modernas, como los web logs, los dispositivos RFID, los sensores incorporados en smartphones, las búsquedas en Internet, las interacciones en redes sociales o los registros de centros de llamadas.
  • En la mayoría de los casos, con el fin de utilizar eficazmente el Big Data, debe combinarse con datos estructurados (normalmente de una base de datos relacional) de una aplicación comercial más convencional, como un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship Management).
  • Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían. En otras palabras, proporciona un punto de referencia.
  • Como mencionamos antes, el Big Data se puede definir a través de sus cinco características principales, conocidas también como las cinco "V" del Big Data (volumen, variedad, velocidad, veracidad y valor). A éstas, se les pueden añadir dos más: viabilidad y visualización.

Capas software de un proyecto de Big Data

Desde un punto de vista meramente tecnológico, existen tres capas generales de un proyecto de Big Data:

  • Almacenamiento: recursos hardware y software que permite el almacenamiento de los datos.
  • Procesamiento: herramientas de procesamiento de los datos.
  • Análisis: metodología seguida para realizar el análisis de los datos que derivan en información de valor.

Si bien estas capas son compartidas con cualquier proyecto de datos, el software necesario para llevar a cabo estas funciones difiere considerablemente de las herramientas tradicionales.



Arquitectura genérica Big Data

Ventajas de las soluciones Big Data

El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios más inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. Las empresas con más éxito con Big Data consiguen valor de las siguientes formas:

  • Reducción de costes. Las grandes tecnologías de datos, como Hadoop y el análisis basado en la nube, aportan importantes ventajas en términos de costes cuando se trata de almacenar grandes cantidades de datos, además de identificar maneras más eficientes de hacer negocios.
  • Más rápido, mejor toma de decisiones. Con la velocidad de Hadoop y la analítica en memoria, combinada con la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la información inmediatamente y tomar decisiones basadas en lo que han aprendido.
  • Nuevas oportunidades de negocio. Con la capacidad de medir las necesidades de los clientes y la satisfacción a través de análisis viene el poder de dar a los clientes lo que quieren. Con la analítica de Big Data, más empresas están creando nuevos productos para satisfacer las necesidades de los clientes.

Referencias de Classora en proyectos avanzados de datos

Hemos desarrollado con éxito decenas de proyectos de integración y análisis de datos, tanto para empresas pequeñas (incluyendo comercios locales) como para grandes multinacionales (incluyendo empresas del IBEX-35). Por cuestiones de confidencialidad no podemos presentarlos todos, pero aquí dejamos una pequeña muestra con diez proyectos singulares. Puedes consultar nuestros clientes y referencias aquí.

  • Proyecto para una cadena de supermercados, que consistió en diseñar un data warehouse y cargarlo automáticamente con procesos ETL a partir de las diferentes bases de datos departamentales. El DWH se utiliza para distintos objetivos, entre ellos, alimentar a un Sistema de Soporte a la Decisión (DSS) y monitorizar indicadores clave para la empresa (KPIs).
  • Proyecto para una empresa del sector textil, que consistió en crear un portal de APIs, es decir, una plataforma web en la cual se puedan registrar, probar y mantener todos los microservicios que se utilizan en los entornos de desarrollo y producción de la empresa, incluyendo APIs REST, gRPC, GraphQL, AsyncAPI, SOAP, Kafka... etc. Todo ello correctamente integrado con Swagger, un servidor de mocks y todos los demás flujos de la empresa.
  • Proyecto para una empresa del sector auditivo, que consistió en implementar una plataforma online para realizar audiometrías (gráficas de frecuencias vs decibelios) y pruebas auditivas complejas a distancia. Los datos de los pacientes se agregan y se cruzan con un glosario de dolencias y un vademecum para proponer tratamientos predefinidos, que después son modificados manualmente por el profesional de salud que trata a cada paciente.
  • Proyecto para una empresa del sector bancario, que consistió en desarrollar un servicio de monitorización de dos boletines oficiales (BOE y BORME). En el marco del análisis de riesgos, el servicio sirve para detectar empresas en situación concursal.
  • Proyecto para una empresa de telecomunicaciones, que consistió en generar un servicio para enriquecer los contenidos audiovisuales (películas o series) que se emiten en TV, con datos adicionales en tiempo real. Estos datos se muestran en una app, incluyendo personajes, lugares y empresas que se mencionan durante los diálogos.
  • Proyecto para una empresa de industria gráfica, que consistió en implantar una solución que integrase definiciones de la RAE en libros electrónicos (ebooks) en formato epub. El objetivo es que el lector pueda consultar ipso facto dudas sobre términos que figuran en la lectura. El proyecto tiene versión online y offline, y ya ha trascendido las fronteras españolas.
  • Proyecto para una editorial de contenidos online: servicio que muestra las farmacias de guardia a nivel municipal, comarcal, provincial y autonómico, para una determinada fecha. La dificultad del proyecto radicó en que las farmacias de guardia son publicadas por los Colegios Oficiales de Farmacéuticos de cada provincia, por lo que fue necesario coordinar 52 crawlers.
  • Proyecto para una agencia de noticias, desarrollado bajo el marco del "Digital News Innovation Fund (DNI Fund)" de Google, el trabajo consistió en implementar un portal que integrase datos de distintas fuentes, con el objetivo de enriquecer noticias con gráficas y tablas de todo tipo. Puedes consultar el resultado en www.epdata.es
  • Proyecto para una empresa de prensa digital: consistió en implantar un servicio para monitorizar, en tiempo real, las portadas de los principales medios de comunicación españoles. El objetivo es presentar una lista de "temas del momento" (trending topics) y cotejar dichos temas con los que está generando internamente su redacción. El cálculo de los pesos de cada tema incluye factores como el tamaño de letra, la posición en portada, la existencia de foto y sus dimensiones, el nº de comentarios y el nº de shares.
  • Proyecto para una empresa del sector videojuegos, en el contexto de un portal de comercio electrónico: el proyecto se basa en robots (crawlers) que visitan constantemente las tiendas de e-commerce de la competencia para detectar descuentos, promociones, rebajas y cualquier variación en el precio de los productos publicados. También se historiza, con fines de análisis estadístico, el nº de comentarios y la valoración numérica de cada artículo.

Estos son sólo algunos ejemplos de proyectos singulares... quizás de los más representativos de cada tipo, para ilustrar la diversidad de proyectos que podemos acometer con datos. No es una lista exhaustiva, de hecho no se incluyen los servicios de clasificación de textos para medios digitales.

¿Preparado para iniciar un proyecto de integración y análisis de datos? Contacta con nosotros para que te guiemos en todo el proceso.

Formulario de contacto


«No se puede mejorar lo que no se controla, no se puede controlar lo que no se mide...»

(William Edwards Deming)