Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Distribuciones de probabilidades empíricas y no paramétricas

Visión general

En algunas situaciones, no se puede describir con precisión una muestra de datos mediante una distribución paramétrica. En su lugar, la función de densidad de probabilidad (pdf) o la función de distribución acumulativa (CDF) se deben estimar a partir de los datos. proporciona varias opciones para estimar el PDF o CDF a partir de datos de muestra.Statistics and Machine Learning Toolbox™

Distribución del kernel

A produce una estimación de densidad de probabilidad no paramétrica que se adapta a los datos, en lugar de seleccionar una densidad con una forma paramétrica concreta y estimar los parámetros.distribución del kernel Esta distribución se define mediante un estimador de densidad de kernel, una función de suavizado que determina la forma de la curva utilizada para generar el PDF y un valor de ancho de banda que controla la suavidad de la curva de densidad resultante.

Al igual que en un histograma, la distribución del kernel compila una función para representar la distribución de probabilidad utilizando los datos de ejemplo. Pero a diferencia de un histograma, que coloca los valores en bins discretos, una distribución de kernel suma las funciones de suavizado de componentes para cada valor de datos para producir una curva de probabilidad continua y fluida. La siguiente gráfica muestra una comparación visual de un histograma y una distribución del kernel generada a partir de los mismos datos de ejemplo.

Un histograma representa la distribución de probabilidad estableciendo bins y colocando cada valor de datos en la ubicación adecuada. Debido a este enfoque de recuento de bin, el histograma produce una función de densidad de probabilidad discreta. Esto podría ser inadecuado para ciertas aplicaciones, como la generación de números aleatorios a partir de una distribución ajustada.

Alternativamente, la distribución del kernel construye la función de densidad de probabilidad (pdf) creando una curva de densidad de probabilidad individual para cada valor de datos, luego sumando las curvas suaves. Este enfoque crea una función de densidad de probabilidad continua y fluida para el conjunto de datos.

Para obtener más información general sobre las distribuciones de kernel, consulte.Distribución del kernel Para obtener información sobre cómo trabajar con una distribución de kernel, consulte y.UsingKernelDistributionObjectsksdensity

Función de distribución acumulativa empírica

Una función de distribución acumulativa empírica () estima la CDF de una variable aleatoria asignando la misma probabilidad a cada observación de una muestra.ecdf Debido a este enfoque, el ECDF es una función de distribución acumulativa discreta que crea una coincidencia exacta entre el ECDF y la distribución de los datos de ejemplo.

La siguiente gráfica muestra una comparación visual del ECDF de 20 números aleatorios generados a partir de una distribución normal estándar, y el CDF teórico de una distribución normal estándar. Los círculos indican el valor del ECDF calculado en cada punto de datos de muestra. La línea discontinua que pasa a través de cada círculo representa visualmente el ECDF, aunque el ECDF no es una función continua. La línea sólida muestra la CDF teórica de la distribución normal estándar a partir de la cual se trazaron los números aleatorios de los datos de la muestra.

El ECDF es similar en forma a la CDF teórica, aunque no es una coincidencia exacta. En su lugar, el ECDF es una coincidencia exacta con los datos de ejemplo. El ECDF es una función discreta, y no es suave, especialmente en las colas donde los datos podrían ser escasos. Puede suavizar la distribución con, utilizando la función.Cruz de Paretoparetotails

Para obtener más información y opciones de sintaxis adicionales, consulte.ecdf Para construir una función continua basada en valores CDF calculados a partir de datos de ejemplo, consulte.Distribución lineal a destalonado

Distribución lineal a destalonado

A estima un CDF global para los datos de muestra calculando el valor CDF en cada punto individual y, a continuación, conectando linealmente estos valores para formar una curva continua.distribución lineal por etapas

La siguiente gráfica muestra la CDF para una distribución lineal a trozos basada en una muestra de mediciones de peso de pacientes hospitalarios. Los círculos representan cada punto de datos individual (medición de peso). La línea negra que pasa a través de cada punto de datos representa el CDF de distribución lineal por tramos para los datos de muestra.

Una distribución lineal por tramos conecta linealmente los valores CDF calculados en cada punto de datos de muestra para formar una curva continua. Por el contrario, un construido utilizando la función produce un CDF discreto.función de distribución acumulativa empíricaecdf Por ejemplo, los números aleatorios generados a partir del ECDF solo pueden incluir valores contenidos en los datos de muestra originales.x Los números aleatorios generados a partir de una distribución lineal por tramos pueden incluir cualquier valor entre los límites inferior y superior de los datos de la muestra.x

Dado que la distribución lineal por tramos se construye a partir de los valores contenidos en los datos de muestra, la curva resultante a menudo no es suave, especialmente en las colas donde los datos pueden ser dispersos. Puede suavizar la distribución con, utilizando la función.Cruz de Paretoparetotails

Para obtener información sobre cómo trabajar con una distribución lineal por etapas, consulte uso de objetos.PiecewiseLinearDistribution

Pareto Tails

Las colas de Pareto utilizan un enfoque gradual para mejorar el ajuste de un CDF no paramétrico suavizando las colas de la distribución. Puede ajustar un estimador definido por el usuario a los valores de datos medios y, a continuación, ajustar las curvas a las colas.distribución del kernelCDF empíricadistribución generalizada de Pareto Esta técnica es especialmente útil cuando los datos de la muestra son escasos en las colas.

La siguiente gráfica muestra el CDF empírico (ECDF) de una muestra de datos que contiene 20 números aleatorios. La línea sólida representa el ECDF, y la línea discontinua representa la CDF empírica con las colas de Pareto que encajan con el 10 por ciento inferior y superior de los datos. Los círculos denotan los límites para el 10 por ciento inferior y superior de los datos.

Ajustar las colas de Pareto al 10 por ciento inferior y superior de los datos de la muestra hace que la CDF sea más suave en las colas, donde los datos son escasos. Para obtener más información sobre cómo trabajar con colas de Pareto, vea.paretotails

Distribución triangular

A proporciona una representación simplista de la distribución de probabilidad cuando hay datos de muestra limitados disponibles.Distribución triangular Esta distribución continua se parametriza con un límite inferior, una ubicación máxima y un límite superior. Estos puntos están conectados linealmente para estimar el PDF de los datos de muestra. Puede utilizar la media, la mediana o el modo de los datos como ubicación máxima.

La siguiente gráfica muestra el PDF de distribución triangular de una muestra aleatoria de 10 enteros de 0 a 5. El límite inferior es el número entero más pequeño en los datos de muestra y el límite superior es el entero más grande. El pico de esta gráfica está en el modo, o el valor que ocurre con mayor frecuencia, en los datos de ejemplo.

Las aplicaciones empresariales, como la simulación y la gestión de proyectos, a veces utilizan una distribución triangular para crear modelos cuando existen datos de muestra limitados. Para obtener más información, consulte.Distribución triangular

Consulte también

| |

Temas relacionados