Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

plotDiagnostics

Trazar diagnósticos de observación del modelo de regresión lineal

Descripción

crea una gráfica de diagnósticos de observación, como el apalancamiento, la distancia de Cook y las estadísticas de DELETE-1 para identificar valores atípicos y observaciones influyentes.plotDiagnostics

ejemplo

plotDiagnostics(mdl) crea una gráfica de apalancamiento de las observaciones del modelo de regresión lineal ().mdl Una línea de puntos en la gráfica representa los valores de umbral recomendados.

plotDiagnostics(mdl,plottype) especifica el tipo de diagnóstico de observación.plottype

plotDiagnostics(mdl,plottype,Name,Value) especifica las propiedades gráficas de los puntos de datos de diagnóstico mediante uno o varios argumentos de par nombre-valor. Por ejemplo, puede especificar el símbolo de marcador y el tamaño de los puntos de datos.

h = plotDiagnostics(___) devuelve objetos gráficos para las líneas o el contorno del trazado utilizando cualquiera de las combinaciones de argumentos de entrada de las sintaxis anteriores. Se utiliza para modificar las propiedades de una línea o contorno específicos después de crear el trazado.h Para obtener una lista de propiedades, vea y.Line PropertiesContour Properties

Ejemplos

contraer todo

Graficar los valores de apalancamiento y las distancias de observaciones de Cook y encontrar los Outliers.

Cargue el conjunto de datos y ajuste un modelo de regresión lineal del kilometraje como una función del año del modelo, el peso y el peso al cuadrado.carsmall

load carsmall tbl = table(MPG,Weight); tbl.Year = categorical(Model_Year); mdl = fitlm(tbl,'MPG ~ Year + Weight^2');

Trace los valores de apalancamiento.

plotDiagnostics(mdl) legend('show') % Show the legend

La línea punteada representa el valor umbral recomendado 2/, donde está el número de coeficientes, y es el número de observaciones.pnpn Busque el valor de umbral con las propiedades y.NumCoefficientsNumObservations

t_leverage = 2*mdl.NumCoefficients/mdl.NumObservations
t_leverage = 0.1064 

Encuentre las observaciones con valores de apalancamiento que superen el valor de umbral.

find(mdl.Diagnostics.Leverage > t_leverage)
ans = 3×1

    26
    32
    35

También puede encontrar un número de observación mediante una sugerencia de datos. Seleccione los puntos de datos por encima de la línea de umbral para mostrar sus sugerencias de datos. La sugerencia de datos incluye los valores de eje y eje para el punto seleccionado, junto con el número de observación.xy

Graficar los valores de distancia del cocinero.

plotDiagnostics(mdl,'cookd')

La línea punteada representa el valor de umbral recomendado.t_cookd

t_cookd = 3*mean(mdl.Diagnostics.CooksDistance,'omitnan')
t_cookd = 0.0320 

Busque las observaciones con los valores de distancia del cocinero que superen el valor de umbral.

find(mdl.Diagnostics.CooksDistance > t_cookd)
ans = 6×1

    26
    35
    80
    90
    92
    97

Dos observaciones (26 y 35) son valores atípicos por ambas medidas, pero algunos puntos (32, 80, 90, 92 y 97) son valores atípicos por una sola medida.

Argumentos de entrada

contraer todo

Modelo de regresión lineal, especificado como un objeto creado mediante o.LinearModelfitlmstepwiselm

Tipo de trazado, especificado como uno de los valores de esta tabla.

ValorTipo de trazadoLínea de referencia de puntos en la gráfica Propósito
'contour'El apalancamiento residual frente a los contornos superpuestos de la distancia de CookContornos de la distancia de CookIdentifique observaciones con valores residuales grandes, alto apalancamiento y valores de distancia de Cook grandes.
'cookd'La distancia del cocineroUmbral recomendado, calculado por3*mean(mdl.Diagnostics.CooksDistance)Identifique las observaciones con el valor de distancia grande de Cook.
'covratio'Delete-1 ratio del determinante de la covarianzaUmbrales recomendados, calculados por, donde está el número de coeficientes () y es el número de observaciones ()1±3*p/npmdl.NumCoefficientsnmdl.NumObservationsIdentifique las observaciones en las que el valor estadístico Delete-1 no esté en el intervalo de los umbrales recomendados.
'dfbetas'Delete-1 escala diferencias en las estimaciones de coeficienteUmbral recomendado, calculado por3/sqrt(n)Identifique observaciones con valores estadísticos Delete-1 grandes.
'dffits'Las diferencias de escala Delete-1 en los valores ajustadosUmbral recomendado, calculado por un valor absoluto2*sqrt(p/n)Identifique las observaciones con valores de estadística Delete-1 grandes en un valor absoluto.
'leverage'apalancamientoUmbral recomendado, calculado por2*p/nIdentifique observaciones de alto apalancamiento.
's2_i'Varianza Delete-1Error cuadrado medio ()mdl.MSECompare la varianza Delete-1 con el error cuadrado medio.

Para todos los tipos de trazado excepto, el eje es el número de fila (orden del caso) de las observaciones.'contour'x

La propiedad de contiene los valores de diagnóstico utilizados para crear trazados.DiagnosticsmdlplotDiagnostics

Para obtener más información acerca de los diagnósticos de observación, vea y.La distancia del cocineroDelete-1 estadísticasapalancamiento

Argumentos de par nombre-valor

Especifique pares de argumentos separados por comas opcionales. es el nombre del argumento y es el valor correspondiente. deben aparecer dentro de las cotizaciones.Name,ValueNameValueName Puede especificar varios argumentos de par de nombre y valor en cualquier orden como.Name1,Value1,...,NameN,ValueN

Ejemplo: 'Color','blue','Marker','o'

Nota

Las propiedades gráficas enumeradas aquí son solo un subconjunto. Para obtener una lista completa, consulte.Line Properties Las propiedades especificadas determinan la apariencia de los puntos de datos de diagnóstico.

Color de línea, especificado como el par separado por comas que consta de un triplete RGB, un código de color hexadecimal, un nombre de color o un nombre abreviado para una de las opciones de color enumeradas en la tabla siguiente.'Color'

El argumento de par nombre-valor también determina el color del contorno del marcador y el color de relleno del marcador si es (predeterminado) y es.'Color''MarkerEdgeColor''auto''MarkerFaceColor''auto'

Para un color personalizado, especifique un triplete RGB o un código de color hexadecimal.

  • Un triplete RGB es un vector de fila de tres elementos, cuyo elemento especifica las intensidades de los componentes rojo, verde y azul del color. Las intensidades deben estar en el rango; por ejemplo,.[0,1][0.4 0.6 0.7]

  • Un código de color hexadecimal es un vector de caracteres o un escalar de cadena que comienza con un símbolo de hash () seguido de tres o seis dígitos hexadecimales, que pueden oscilar entre.#0F Los valores no distinguen entre mayúsculas y minúsculas. Por lo tanto, los códigos de color,,, y son equivalentes.'#FF8800''#ff8800''#F80''#f80'

Como alternativa, puede especificar algunos colores comunes por nombre. Esta tabla enumera las opciones de color con nombre, los tripletes RGB equivalentes y los códigos de color hexadecimales.

Nombre del colorNombre cortoTriplete RGBCódigo de color hexadecimalAspecto
'red''r'[1 0 0]'#FF0000'

'green''g'[0 1 0]'#00FF00'

'blue''b'[0 0 1]'#0000FF'

'cyan' 'c'[0 1 1]'#00FFFF'

'magenta''m'[1 0 1]'#FF00FF'

'yellow''y'[1 1 0]'#FFFF00'

'black''k'[0 0 0]'#000000'

'white''w'[1 1 1]'#FFFFFF'

'none'No es aplicableNo es aplicableNo es aplicableSin color

Estos son los tripletes RGB y los códigos de color hexadecimales para los colores predeterminados que se utilizan en muchos tipos de trazados.MATLAB®

Triplete RGBCódigo de color hexadecimalAspecto
[0 0.4470 0.7410]'#0072BD'

[0.8500 0.3250 0.0980]'#D95319'

[0.9290 0.6940 0.1250]'#EDB120'

[0.4940 0.1840 0.5560]'#7E2F8E'

[0.4660 0.6740 0.1880]'#77AC30'

[0.3010 0.7450 0.9330]'#4DBEEE'

[0.6350 0.0780 0.1840]'#A2142F'

Ejemplo: 'Color','blue'

Ancho de línea, especificado como el par separado por comas que consta de un valor positivo en puntos.'LineWidth' Si la línea tiene marcadores, el ancho de línea también afecta a los bordes del marcador.

Ejemplo: 'LineWidth',0.75

Símbolo de marcador, especificado como el par separado por comas que consta de y uno de los valores de esta tabla.'Marker'

ValorDescripción
'o'circunferencia
'+'Signo más
'*'Asterisco
'.'Punto
'x'Cruz
O'square''s'Cuadrado
O'diamond''d'Diamante
'^'El Triángulo apuntando hacia arriba
'v'El Triángulo apuntando hacia abajo
'>'Triángulo que apunta a la derecha
'<'Triángulo que apunta a la izquierda
O'pentagram''p'Estrella de cinco puntas (pentagrama)
O'hexagram''h'Estrella de seis puntas (Hexagrama)
'none'No hay marcadores

Ejemplo: 'Marker','+'

Color del contorno del marcador, especificado como el par separado por comas que consta de un triplete RGB, un código de color hexadecimal, un nombre de color o un nombre abreviado para una de las opciones de color enumeradas en el argumento de par nombre-valor.'MarkerEdgeColor'Color

El valor predeterminado de utiliza el mismo color especificado mediante.'auto''Color'

Ejemplo: 'MarkerEdgeColor','blue'

Color de relleno del marcador, especificado como el par separado por comas que consta de un triplete RGB, un código de color hexadecimal, un nombre de color o un nombre abreviado para una de las opciones de color enumeradas en el argumento de par nombre-valor.'MarkerFaceColor'Color

El valor utiliza el mismo color especificado por using.'auto''Color'

Ejemplo: 'MarkerFaceColor','blue'

Tamaño del marcador, especificado como el par separado por comas y que consta de un valor positivo en puntos.'MarkerSize'

Ejemplo: 'MarkerSize',2

Argumentos de salida

contraer todo

Objetos Graphics correspondientes a las líneas o contorno del trazado, devueltos como una matriz de gráficos. Utilice la notación de puntos para consultar y establecer las propiedades de los objetos gráficos. Para obtener más información, consulte y.Line PropertiesContour Properties

Puede usar argumentos de par nombre-valor para especificar la apariencia de los puntos de datos de diagnóstico correspondientes al primer objeto gráfico.h(1) Si es así, la gráfica incluye un objeto de línea para cada coeficiente.plottype'dfbetas' Los argumentos de par nombre-valor especifican las propiedades del objeto de línea de todos los coeficientes. Puede modificar las propiedades de cada coeficiente por separado utilizando el objeto gráfico correspondiente.

Más acerca de

contraer todo

La distancia del cocinero

La distancia de Cook es el cambio escalado en los valores ajustados, lo cual es útil para identificar valores atípicos en el valor (observaciones para las variables predictoras).X La distancia del cocinero muestra la influencia de cada observación en los valores de respuesta ajustados. Una observación con una distancia de Cook superior a tres veces la distancia media de Cook podría ser un valor atípico.

Cada elemento de la distancia del cocinero es el cambio normalizado en los valores de respuesta ajustada debido a la supresión de una observación.D La distancia de observación del cocinero esi

Di=j=1n(y^jy^j(i))2pMSE,

Dónde

  • y^j es el valor de respuesta ajustada.j

  • y^j(i) es el valor de respuesta ajustada, donde el ajuste no incluye la observación.ji

  • es el error cuadrado medio.MSE

  • es el número de coeficientes en el modelo de regresión.p

La distancia de Cook es algebraicamente equivalente a la siguiente expresión:

Di=ri2pMSE(hii(1hii)2),

Dónderi es la TH residual, yihii es el valor de apalancamiento TH.i

Para obtener más información, consulte.La distancia del cocinero

Delete-1 estadísticas

Las estadísticas Delete-1 son útiles para encontrar la influencia de cada observación. Estas estadísticas capturan los cambios que resultarán de excluir cada observación a su vez del ajuste. Si las estadísticas Delete-1 difieren significativamente del modelo usando todas las observaciones, entonces la observación es influyente.

Consulte las definiciones y usos de las estadísticas Delete-1.Delete-1 estadísticas

apalancamiento

El apalancamiento es una medida del efecto de una observación particular sobre las predicciones de regresión debido a la posición de esa observación en el espacio de las entradas.

El apalancamiento de la observación es el valor del término diagonaliihii de la matriz de sombreros.H La matriz de sombreros se define en términos de la matriz de datos:HX

H = X(XTX)–1XT.

La matriz de sombreros también se conoce como el porque proyecta el vector de observaciones y sobre el vector de prediccionesprojection matrix y^, poniendo así el "sombrero" en y.

Dado que la suma de los valores de apalancamiento es (el número de coeficientes en el modelo de regresión), una observación puede considerarse un valor atípico si su apalancamiento excede sustancialmente/, donde está el número de observaciones.pipnn

Para obtener más información, consulte.Hat Matrix y leverage

Sugerencias

  • El cursor de datos muestra los valores del punto de trazado seleccionado en una punta de datos (cuadro de texto pequeño situado junto al punto de datos). La sugerencia de datos incluye los valores de eje y eje para el punto seleccionado, junto con el nombre o número de observación.xy

  • Se usa para mostrar la leyenda rellenada previamente.legend('show')

Funcionalidad alternativa

  • Un objeto proporciona varias funciones de trazado.LinearModel

    • Al crear un modelo, utilice para comprender el efecto de agregar o quitar una variable predictora.plotAdded

    • Al verificar un modelo, utilice para encontrar datos cuestionables y para entender el efecto de cada observación.plotDiagnostics También se utiliza para analizar los residuos del modelo.plotResiduals

    • Después de ajustar un modelo, utilice, y para entender el efecto de un predictor en particular.plotAdjustedResponseplotPartialDependenceplotEffects Se usa para comprender el efecto de interacción entre dos predictores.plotInteraction También se utiliza para trazar divisiones a través de la superficie de predicción.plotSlice

Referencias

[1] Neter, J., M. H. Kutner, C. J. Nachtsheim, and W. Wasserman. Applied Linear Statistical Models, Fourth Edition. Chicago: McGraw-Hill Irwin, 1996.

Introducido en R2012a