Visualización de datos

 

¿Qué es la visualización de datos?

3 cosas que es necesario saber

La visualización de datos es el proceso de convertir datos en representaciones gráficas tales como tablas, mapas, gráficas y visualizaciones en 3D que ayudan a identificar fácilmente patrones, tendencias y valores atípicos en los datos.

Estas visualizaciones de datos permiten sacar conclusiones que serían difíciles o imposibles de obtener simplemente mirando los datos sin procesar, especialmente en el caso de conjuntos de grandes cantidades de datos procedentes de fuentes tales como sensores, registradores de datos, registros médicos, patrones de búsqueda web y patrones de compra. La visualización de datos desempeña un papel fundamental en la conversión de datos en información procesable.

Cómo ayuda la visualización de datos

Las técnicas de visualización de datos varían en función del dominio.

Finanzas computacionales

Partiendo de datos de mercado históricos o en tiempo real, la visualización de datos ayuda a identificar rápidamente patrones y tendencias, detectar anomalías y obtener información relevante. La visualización de datos ayuda a realizar análisis, desarrollar modelos predictivos, evaluar riesgos y formalizar estrategias de trading.

La siguiente gráfica simula el comportamiento futuro de precios spot de la electricidad a partir de un modelo de serie temporal ajustado a datos históricos.

Gráfica de precios spot de la electricidad que muestra las tendencias y los precios spot históricos junto con las tendencias y los precios spot simulados. La fecha aparece en el eje x, y el precio spot en el eje y.

Gráfica de precios spot de la electricidad que muestra los datos históricos junto con la tendencia determinista prevista.

Procesamiento de señales

El procesamiento de señales se utiliza en aplicaciones tales como análisis de voz, monitorización de la frecuencia cardíaca, comunicaciones inalámbricas, teledetección, vigilancia del clima y GPS. Entre las tareas comunes se encuentran el preprocesamiento y la comparación de señales, el diseño de filtros digitales, la transformación de señales, la realización de mediciones y la detección de patrones y eventos. Las visualizaciones de datos se utilizan para analizar señales de interés en los dominios del tiempo, la frecuencia y el tiempo-frecuencia.

La siguiente gráfica muestra los datos de audio de una ballena. La visualización se creó con la app Signal Analyzer de MATLAB®, que ayuda a visualizar señales en los dominios del tiempo y la frecuencia.

App Signal Analyzer con datos de señales extraídos del audio de una ballena y un gráfico de los datos.

Región de interés extraída del audio de una ballena.

Procesamiento de imágenes y visión artificial

El procesamiento de imágenes y vídeos ayuda a identificar formas, contar objetos, identificar colores, medir propiedades de objetos y buscar otros tipos de información relevante. Las técnicas de procesamiento de imágenes suelen aplicarse como un paso de preprocesamiento en el flujo de trabajo de visión artificial. Entre las aplicaciones en este dominio se encuentran el reconocimiento facial para smartphones, la evasión de vehículos y peatones en vehículos autónomos, la videovigilancia, la detección de tumores en IRM médicas y otros sistemas de captura de imágenes.

Por ejemplo, BMW utiliza prestaciones de visión artificial en su sistema de asistencia al conductor Assisted Driving View (ADV) para representar vehículos circundantes e identificar sus tipos.

Assisted Driving View de BMW que muestra la detección de objetos.

Assisted Driving View de BMW. MATLAB se utilizó para realizar verificación automatizada, incluyendo registro de la imagen, detección de objetos, etiquetado de validación ground-truth y pruebas de la escena de ADV con respecto al resultado de las pruebas.

Inteligencia artificial (IA)

La visualización de datos desempeña un papel importante en el desarrollo de modelos de IA, tanto si se utiliza Machine Learning como Deep Learning, dado que los modelos se basan en conjuntos de datos de gran tamaño, que son difíciles de interpretar. En Machine Learning, el análisis de clusters ayuda a detectar anomalías y al preprocesamiento de datos en el aprendizaje supervisado. El análisis de componentes principales (PCA) y la incrustación estocástica de vecinos t-distribuida (t-SNE) son las dos técnicas de visualización de datos más utilizadas, dado que ayudan a reducir las dimensiones de los datos para poder centrarse en las dimensiones diferenciadoras clave.

En Deep Learning, puede supervisar el progreso del entrenamiento utilizando visualizaciones de datos tales como gráficas de precisión y pérdida de la red, e investigar redes entrenadas empleando técnicas de visualización tales como mapeo de activaciones de clase ponderado por gradientes (Grad-CAM), sensibilidad a la oclusión, explicaciones locales interpretables independientes del modelo (LIME) y deep dream.

Gráficas de Mahalanobis, Coseno, Chebychev y euclidiana de tres especies diferentes de lirios.

Gráficas de diferentes especies de lirios con el conjunto de datos sobre lirios de Fisher. Las visualizaciones se han representado con la función tsne.

Cómo ayuda la visualización de datos

Los paquetes de software cuentan con prestaciones para transformar datos sin procesar en visualizaciones detalladas, tales como gráficas, tablas y diagramas. El siguiente ejemplo ilustra datos de densidad de la circulación de bicicletas. Si nos limitamos a realizar una inspección visual de los datos sin procesar, es difícil establecer una relación entre los puntos de datos.

Vista previa de datos de densidad de la circulación de bicicletas sin procesar.
Marca de tiempo Día Total En dirección oeste En dirección este Hora:
‘2015-06-24 07:00:00’ ‘Miércoles’ 141 13. 128 7.
‘2015-06-24 08:00:00’ ‘Miércoles’ 327 44 283 8.
‘2015-06-24 09:00:00’ ‘Miércoles’ 184 32 152 9.
‘2015-06-24 10:00:00’ ‘Miércoles’ 94 30 64 10
‘2015-06-24 11:00:00’ ‘Miércoles’ 67 24 43 11.
‘2015-06-24 12:00:00’ ‘Miércoles’ 66 32 34 12.
‘2015-06-24 13:00:00’ ‘Miércoles’ 67 32 35 13.

El siguiente gráfico de barras muestra que la densidad de la circulación de bicicletas aumenta y disminuye según los días de la semana. Ahora queda claro que el número de ciclistas es mayor entre semana que en los fines de semana. Esta visualización permite inferir que la mayoría de los ciclistas de este recorrido se desplazan ida y vuelta al trabajo.

Gráfico de barras de la mediana de ciclistas por día de la semana.

Datos de la circulación de bicicletas representados con un gráfico de barras.

Se puede utilizar un diagrama de dispersión para obtener más información a partir de estos datos. La siguiente gráfica muestra el número total de bicicletas que se dirigen hacia el este y el oeste a ciertas horas del día. De acuerdo con esta gráfica, podemos inferir que los recorridos en dirección este llevan a distritos comerciales, mientras que los recorridos en dirección oeste conducen a zonas residenciales. Además, podemos establecer que la circulación a la hora pico se produce entre las 8:00 y las 10:00 AM en dirección este, y entre las 4:00 y las 6:00 PM en dirección oeste.

Diagrama de dispersión de la circulación de bicicletas en Boston. La hora del día aparece en el eje x, y el número total de bicicletas en el eje y. Los puntos azules indican los ciclistas que van en dirección este, y los puntos naranja indican los ciclistas que circulan en dirección oeste.

Circulación de bicicletas en dirección este y oeste por hora del día. 

Un diagrama de enjambre es un tipo especial de diagrama de dispersión que muestra patrones de densidad de la circulación de bicicletas en momentos del día, días de la semana y direcciones diferentes.

Diagrama de enjambre de la circulación de bicicletas en Boston que representa el día de la semana, la hora del día y la dirección del desplazamiento para mostrar la densidad del número de alquileres de bicicletas.

Densidad de la circulación de bicicletas por día y dirección.

En el ejemplo de la circulación de bicicletas, visualizar los datos con diferentes tipos de gráficas, tales como gráficos de barras, y diagramas de dispersión y de enjambre, ayuda a extraer información útil del conjunto de datos, por ejemplo, los días con más circulación, la dirección del desplazamiento y la hora pico.

Visualización de datos con MATLAB

MATLAB es una plataforma de programación y cálculo numérico utilizada para analizar datos, desarrollar algoritmos y crear modelos. Permite trabajar en todo el flujo de trabajo de análisis de datos, incluyendo la captura de datos directamente en MATLAB, el análisis y la visualización de datos, y la exportación de resultados. Puede utilizar apps interactivas para visualizar datos sin necesidad de escribir código; las apps se encargan de generar automáticamente el código de MATLAB adecuado para que pueda automatizar y reutilizar su trabajo.

Creación de visualizaciones de datos

MATLAB ofrece una amplia variedad de tipos de gráficos integrados, tales como gráficas de líneas, diagramas de dispersión, gráficas de distribución y gráficas geográficas para visualizar conjuntos de datos de un conjunto diverso de aplicaciones. Puede crear visualizaciones de manera interactiva o programática con el lenguaje de MATLAB.

Exploración de visualizaciones de datos

Puede explorar una visualización de manera interactiva, por ejemplo:

  • Ampliando o reduciendo una sección específica del conjunto de datos
  • Realizando panorámicas o rotando las visualizaciones de manera interactiva
  • Mostrando líneas de tendencia o valores de datos directamente en la visualización
  • Sombreando y resaltando puntos de datos
  • Alternando dominios (por ejemplo, tiempo, frecuencia, S, Z)

Anotación y personalización de visualizaciones de datos

Puede anotar las visualizaciones de manera interactiva resaltando la información esencial que desee destacar, por ejemplo:

  • Anotando puntos de datos clave
  • Agregando sugerencias sobre los datos
  • Agregando etiquetas a los ejes
  • Agrupando por distintos colores y patrones
  • Agregando marcadores de datos, estilos de línea y colores

MATLAB genera código automáticamente a partir de las modificaciones de un gráfico interactivo. Puede reutilizar ese código agregándolo a un script.

Gráfica de la señal I-Q, donde la x aparece en el eje x, y la amplitud normalizada en el eje y. Se muestran una señal en fase y una señal de cuadratura.

La opción Update Code aparece cuando se modifica una visualización.

Puede resultar difícil visualizar conjuntos de datos complejos sirviéndose de gráficos simples. MATLAB permite crear gráficos personalizados y agregar interacciones personalizadas. 

He aquí algunos ejemplos:

  • Componente de minigráficos: Cree gráficos de líneas pequeños que muestren la tendencia general de cada vector dentro de un conjunto de datos multivectoriales, como una tabla. Observe y compare las tendencias de los datos de cada fila/columna.
  • Diagrama de dispersión de densidad: Utilice color o transparencia para identificar la densidad de los puntos.
Componente de minigráficos y diagrama de dispersión de densidad que representan datos sin etiquetar.

Componente de minigráficos (izquierda) y diagrama de dispersión de densidad (derecha).

Explore más ejemplos de gráficos personalizados en File Exchange de MATLAB Central.

Exportación de visualizaciones de datos

Puede exportar directamente las visualizaciones personalizadas y anotadas para utilizarlas en la web y en presentaciones e informes.

Exportación de una figura.

Exportación de una figura.

Integración de la visualización de datos con el análisis de datos

La visualización de datos se suele combinar con el análisis y preprocesamiento de datos. Las apps de MATLAB Data Cleaner y Signal Analyzer combinan estos pasos.

Los controles interactivos permiten especificar operaciones sin necesidad de escribir código, y las visualizaciones de datos correspondientes se integran directamente en la app. Esto permite ver inmediatamente los resultados de una tarea determinada. Una vez que el análisis y el preprocesamiento han concluido, las apps pueden generar automáticamente el código de MATLAB correspondiente que permite automatizar los pasos, incluso en datos diferentes.

Visualizaciones específicas de la aplicación

Las toolboxes de MATLAB proporcionan visualizaciones específicas de la aplicación, junto con apps interactivas que combinan la visualización con el preprocesamiento y análisis de datos.

App Econometric Modeler.

App Econometric Modeler para visualizar y analizar datos de series temporales univariantes y multivariantes en Econometrics Toolbox™.

Gráfico de respuesta de magnitud con la frecuencia en MHz en el eje x, y la magnitud en el eje y.

Respuesta en frecuencia de las etapas individuales de un convertidor descendente digital multietapa en DSP System Toolbox™.

Gráfico que representa un espectro de señales deseadas y de interferencia con la frecuencia en GHz en el eje x, y los dBm en el eje y.

Prueba de rendimiento de portadora/interferencia, intermodulación y bloqueo de Bluetooth LE en Bluetooth® Toolbox.

Gráfico de beamforming de un sistema de arrays en fase que mide la potencia normalizada en dB para varias dimensiones.

Beamforming para un sistema de arrays en fase en Phased Array System Toolbox™.

Conexión de MATLAB a otras herramientas de visualización de datos

Puede utilizar las prestaciones computacionales y de procesamiento de datos de MATLAB para crear visualizaciones y paneles con otras herramientas de inteligencia empresarial, tales como:

Casos prácticos

Aplicaciones de visualización de datos

Las prestaciones de visualización de datos de MATLAB permitieron a diversas organizaciones alcanzar eficazmente sus objetivos de investigación.

Ford desarrolla una herramienta para analizar resultados de pruebas de ciclo de conducción

El equipo Vehicle Energy Management Engineering de Ford utilizó MATLAB para desarrollar CycleTool con el fin de evaluar las emisiones, el ahorro de combustible y el rendimiento de sus vehículos. Con esta herramienta, pueden evaluar el rendimiento de los sistemas comparando visualmente los resultados de las pruebas en hardware con las predicciones y simulaciones de los modelos.

Lea el caso práctico

Prestación de MATLAB para comparar visualmente los resultados de pruebas en hardware con las predicciones y simulaciones de modelos.

Resalte de datos para observar tendencias en la aplicación de resumen.

Decodificación del vuelo de una mariposa con cámaras de alta velocidad y un túnel de viento

Profesionales de investigación de la Universidad de Lund descubrieron qué hace que las mariposas tengan ese singular patrón de revoloteo, y utilizaron MATLAB para procesamiento de imágenes, análisis de datos, modelado y visualizaciones. Basado en el comportamiento de vuelo de las mariposas, profesionales de ingeniería desarrollaron drones que vuelan y navegan más eficiente y dinámicamente. Emplearon las funciones de visualización de datos de MATLAB para analizar y comparar el rendimiento de diseños de alas inspirados en el análisis del comportamiento de vuelo de las mariposas.

Lea el caso práctico

Cuatro gráficos con diferentes tipos de alas que demuestran el impulso y la energía en tiempo normalizado.

Un ala flexible mejora la fuerza y la eficiencia del batido del ala.

State Street Global Advisors desarrolla un modelo de puntuación para aportar transparencia a los criterios ASG

El equipo de desarrollo de State Street Global Advisors generó histogramas, diagramas de dispersión, diagrama de caja y otras visualizaciones para perfeccionar sus algoritmos como parte del desarrollo de R-Factor™, un sistema que ayuda a inversores a tomar decisiones bien fundadas y mejorar sus puntuaciones ASG (ambientales, sociales y de gobernanza).

Lea el caso práctico

Doce gráficos forman un histograma con las puntuaciones ASG de R-Factor por sector según MSCI World.

Histograma con puntuaciones ASG de R-Factor por sector.

Bosch desarrolla una plataforma única para el análisis y la visualización de datos de pruebas de automoción

Bosch utilizó MATLAB para desarrollar ENValyzer (Engineering Test Data Visualizer and Analyzer), una herramienta para visualizar, procesar, analizar y generar informes para datos de prueba capturados con dispositivos de medición, bancos de pruebas y vehículos. El equipo de ingeniería de Bosch consiguió representar los datos en vistas de un solo eje, secundarias, matriciales y de varios ejes.

Lea el caso práctico

Gráfica de ENValyzer que muestra la relación de prominencia (PR) frente a resultados del espectro RPM.

Gráfica de ENValyzer que muestra la relación de prominencia (PR) frente a resultados del espectro RPM.