Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Visualización de matrices altas

La visualización de grandes conjuntos de datos requiere que los datos se resuman, desechado o muestren de alguna manera para reducir el número de puntos que se trazan en la pantalla. En algunos casos, funciones como histogram y pie bin los datos para reducir el tamaño, mientras que otras funciones como plot y scatter utilizan un enfoque más complejo que evita el trazado de píxeles duplicados en la pantalla. Para los problemas en los que el solapamiento de píxeles es relevante para el análisis, la función binscatter también ofrece una forma eficaz de visualizar los patrones de densidad.

La visualización de matrices altas hace que no requiera el uso de gather. MATLAB® evalúa y muestra inmediatamente visualizaciones de matrices altas. Actualmente, puede visualizar matrices altas utilizando las funciones y métodos de esta tabla.

FunciónCajas de herramientas necesariasNotas
plot

Estas funciones gráfican en iteraciones, añadiendo progresivamente a la gráfica a medida que se leen más datos. Durante las actualizaciones, un indicador de progreso muestra la proporción de datos que se han trazado. Durante el proceso de actualización se admite el zoom y la panorámica antes de que finalice la gráfica. Para detener el proceso de actualización, pulse el botón PAUSE (pausa) en el indicador de progreso.

scatter
binscatter
histogram 
histogram2 
pie

Sólo para visualizar datos categóricos.

binScatterPlot Statistics and Machine Learning Toolbox™

Figura contiene un control deslizante para controlar el brillo y el detalle de color de la imagen. El control deslizante ajusta el valor del parámetro de corrección de imagen Gamma .

ksdensity Statistics and Machine Learning Toolbox

Produce una estimación de densidad de probabilidad para los datos, evaluado en 100 puntos para datos univariantes, o 900 puntos para datos bivariantes.

datasample Statistics and Machine Learning Toolbox

datasample permite extraer una submuestra de una matriz alta de forma estadísticamente racional en comparación con la indexación simple. Si el subconjunto de datos es lo suficientemente pequeño como para caber en la memoria, puede utilizar las funciones de trazado y ajuste en el subconjunto que no admitan directamente las matrices altas.

Ejemplos de trazado de arreglos altos

En este ejemplo se muestran varias formas diferentes de visualizar las matrices altas.

Cree un almacén de datos para el conjunto de airlinesmall.csv , que contiene filas de datos de vuelos de línea aérea. Seleccione un subconjunto de las variables de tabla con las que trabajar y eliminar filas que contengan valores perdidos.

ds = datastore('airlinesmall.csv','TreatAsMissing','NA'); ds.SelectedVariableNames = {'Year','Month','ArrDelay','DepDelay','Origin','Dest'}; T = tall(ds); T = rmmissing(T)
T =    Mx6 tall table      Year    Month    ArrDelay    DepDelay    Origin    Dest      ____    _____    ________    ________    ______    _____      1987     10          8          12       'LAX'     'SJC'     1987     10          8           1       'SJC'     'BUR'     1987     10         21          20       'SAN'     'SMF'     1987     10         13          12       'BUR'     'SJC'     1987     10          4          -1       'SMF'     'LAX'     1987     10         59          63       'LAX'     'SJC'     1987     10          3          -2       'SAN'     'SFO'     1987     10         11          -1       'SEA'     'LAX'      :        :         :           :          :         :      :        :         :           :          :         : 

Gráfico circular de vuelos por mes

Convierta la variable Month numérica en una variable categórica que refleje el nombre del mes. Luego trace un gráfico circular que muestre cuántos vuelos hay en los datos para cada mes del año.

T.Month = categorical(T.Month,1:12,{'Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec'})
T =    Mx6 tall table      Year    Month    ArrDelay    DepDelay    Origin    Dest      ____    _____    ________    ________    ______    _____      1987     Oct         8          12       'LAX'     'SJC'     1987     Oct         8           1       'SJC'     'BUR'     1987     Oct        21          20       'SAN'     'SMF'     1987     Oct        13          12       'BUR'     'SJC'     1987     Oct         4          -1       'SMF'     'LAX'     1987     Oct        59          63       'LAX'     'SJC'     1987     Oct         3          -2       'SAN'     'SFO'     1987     Oct        11          -1       'SEA'     'LAX'      :        :         :           :          :         :      :        :         :           :          :         : 
pie(T.Month)
Evaluating tall expression using the Local MATLAB Session: - Pass 1 of 2: Completed in 1 sec - Pass 2 of 2: Completed in 1 sec Evaluation completed in 3 sec 

Histograma de demoras

Trazar un histograma de los retrasos de llegada para cada vuelo en los datos. Dado que los datos tienen una cola larga, limite el área de trazado utilizando el par nombre-valor BinLimits .

histogram(T.ArrDelay,'BinLimits',[-50 150])
Evaluating tall expression using the Local MATLAB Session: - Pass 1 of 2: Completed in 3 sec - Pass 2 of 2: Completed in 1 sec Evaluation completed in 6 sec 

Dispersión gráfica de retrasos

Traza una gráfica de dispersión de los retrasos de llegada y salida. Se puede esperar una fuerte correlación entre estas variables, ya que los vuelos que salen tarde también es probable que lleguen tarde.

Cuando se opera en arreglos de discos altos, las funciones plot, scattery binscatter trazan los datos en iteraciones, agregando progresivamente a la gráfica a medida que se leen más datos. Durante las actualizaciones, la parte superior de la gráfica tiene un indicador de progreso que muestra cuántos datos se han trazado. Durante las actualizaciones se admite el zoom y el panorámica antes de que finalice la gráfica.

scatter(T.ArrDelay,T.DepDelay) xlabel('Arrival Delay') ylabel('Departure Delay') xlim([-140 1000]) ylim([-140 1000])

La barra de progreso también incluye un botón Pausa/reanudar . Utilice el botón para detener las actualizaciones de la gráfica temprano una vez que se muestren suficientes datos.

Línea de tendencia Fit

Utilice las funciones polyfit y polyval para recubrir una línea de tendencia lineal en la gráfica de los retrasos de llegada y salida.

hold on p = polyfit(T.ArrDelay,T.DepDelay,1); x = sort(T.ArrDelay,1); yp = polyval(p,x); plot(x,yp,'r-') hold off

Visualizar densidad

La dispersión de puntos es útil hasta cierto punto, pero puede ser difícil descifrar la información de la gráfica si los puntos se solapan extensivamente. En ese caso, ayuda a visualizar la densidad de puntos en la gráfica para detectar tendencias.

Utilice la función binscatter para visualizar la densidad de puntos en la gráfica de los retrasos de llegada y salida.

binscatter(T.ArrDelay,T.DepDelay,'XLimits',[-100 1000],'YLimits',[-100 1000]) xlim([-100 1000]) ylim([-100 1000]) xlabel('Arrival Delay') ylabel('Departure Delay')

Ajuste la propiedad CLim de los ejes de modo que todos los valores de bin superiores a 150 se coloreen igual. Esto impide que unas pocas bandejas con valores muy grandes dominen la gráfica.

ax = gca; ax.CLim = [0 150];

Consulte también

| |

Temas relacionados