Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Opciones de función de kernel (covarianza)

En el aprendizaje supervisado, se espera que los puntos con valores predictores similares xi, naturalmente tienen valores de respuesta cercana (objetivo) yi. En los procesos Gaussianos, la función de covarianza expresa esta similitud.[1] Especifica la covarianza entre las dos variables latentes f(xi) Y f(xj), donde ambos xi Y xj son vectores-por-1.d En otras palabras, determina cómo la respuesta en un punto xi se ve afectado por las respuestas en otros puntos xj, ≠, = 1, 2,...,.ijin La función de covarianza k(xi,xj) puede definirse mediante varias funciones del kernel. Se puede parametrizar en términos de los parámetros del kernel en Vector θ. Por lo tanto, es posible expresar la función de covarianza como k(xi,xj|θ).

Para muchas funciones estándar del kernel, los parámetros del kernel se basan en la desviación estándar de la señal σf y la escala de longitud característica σl. Las escalas de longitud característica definen brevemente la distancia entre los valores de entrada xi puede ser que los valores de respuesta no estén correlacionados. Ambos σl Y σf debe ser mayor que 0, y esto puede ser aplicado por el vector de parametrización sin restricciones θ, de tal que

θ1=logσl,θ2=logσf.

Las funciones integradas del kernel (covarianza) son:with same length scale for each predictor

  • Squared Exponential Kernel

    Esta es una de las funciones de covarianza más comúnmente utilizadas y es la opción por defecto para.fitrgp La función de kernel exponencial cuadrada se define como

    k(xi,xj|θ)=σf2exp[12(xi xj)T(xi xj)σl2].

    Dónde σl es la escala de longitud característica, y σf es la desviación estándar de la señal.

  • Exponential Kernel

    Puede especificar la función de kernel exponencial mediante el argumento de par nombre-valor.'KernelFunction','exponential' Esta función de covarianza se define mediante

    k(xi,xj|θ)=σf2exp(rσl),

    Dónde σl es la escala de longitud característica y

    r=(xi xj)T(xi xj)

    es la distancia euclidiana entre xi Y xj.

  • Matern 3/2

    Puede especificar la función del kernel Matern 3/2 utilizando el argumento de par nombre-valor.'KernelFunction','matern32' Esta función de covarianza se define mediante

    k(xi,xj|θ)=σf2(1+3rσl)exp(3rσl),

    Dónde

    r=(xi xj)T(xi xj)

    es la distancia euclidiana entre xi Y xj.

  • Matern 5/2

    Puede especificar la función del kernel Matern 5/2 utilizando el argumento de par nombre-valor.'KernelFunction','matern52' La función de covarianza de Matern 5/2 se define como

    k(xi,xj)=σf2(1+5rσl+5r23σl2)exp(5rσl),

    Dónde

    r=(xi xj)T(xi xj)

    es la distancia euclidiana entre xi Y xj.

  • Rational Quadratic Kernel

    Puede especificar la función de kernel cuadrático racional mediante el argumento de par nombre-valor.'KernelFunction','rationalquadratic' Esta función de covarianza se define mediante

    k(xi,xj|θ)=σf2(1+r22ασl2)α,

    Dónde σl es la escala de longitud característica, α es un parámetro de mezcla de escala de valor positivo y

    r=(xi xj)T(xi xj)

    es la distancia euclidiana entre xi Y xj.

Es posible utilizar una escala de longitud separada σm para cada predictor, = 1, 2,...,.mmd Las funciones integradas de kernel (covarianza) con una escala de longitud separada para cada predictor implementan la determinación de relevancia automática (ARD).[2] La parametrización sin restricciones θ en este caso es

θm=logσm,form=1,2,...,dθd+1=logσf.

Las funciones integradas del kernel (covarianza) son:with separate length scale for each predictor

  • ARD Squared Exponential Kernel

    Puede especificar esta función del kernel utilizando el argumento de par nombre-valor.'KernelFunction','ardsquaredexponential' Esta función de covarianza es la función de kernel exponencial cuadrada, con una escala de longitud separada para cada predictor. Se define como

    k(xi,xj|θ)=σf2exp[12m=1d(ximxjm)2σm2].

  • ARD Exponential Kernel

    Puede especificar esta función del kernel utilizando el argumento de par nombre-valor.'KernelFunction','ardexponential' Esta función de covarianza es la función del kernel exponencial, con una escala de longitud separada para cada predictor. Se define como

    k(xi,xj|θ)=σf2exp(r),

    Dónde

    r=m=1d(ximxjm)2σm2.

  • ARD Matern 3/2

    Puede especificar esta función del kernel utilizando el argumento de par nombre-valor.'KernelFunction','ardmatern32' Esta función de covarianza es la función del kernel Matern 3/2, con una escala de longitud diferente para cada predictor. Se define como

    k(xi,xj|θ)=σf2(1+3r)exp(3r),

    Dónde

    r=m=1d(ximxjm)2σm2.

  • ARD Matern 5/2

    Puede especificar esta función del kernel utilizando el argumento de par nombre-valor.'KernelFunction','ardmatern52' Esta función de covarianza es la función del kernel Matern 5/2, con una escala de longitud diferente para cada predictor. Se define como

    k(xi,xj|θ)=σf2(1+5r+53r2)exp(5r),

    Dónde

    r=m=1d(ximxjm)2σm2.

  • ARD Rational Quadratic Kernel

    Puede especificar esta función del kernel utilizando el argumento de par nombre-valor.'KernelFunction','ardrationalquadratic' Esta función de covarianza es la función de kernel cuadrático racional, con una escala de longitud separada para cada predictor. Se define como

    k(xi,xj|θ)=σf2(1+12αm=1d(ximxjm)2σm2)α.

Puede especificar la función del kernel mediante el argumento de par nombre-valor en una llamada a.KernelFunctionfitrgp Puede especificar una de las opciones de parámetros del kernel integradas o especificar una función personalizada. Al proporcionar los valores iniciales de los parámetros del kernel para una función integrada del kernel, introduzca los valores iniciales para la desviación estándar de la señal y las escalas de longitud característica como vector numérico. Al proporcionar los valores iniciales de los parámetros del kernel para una función de kernel personalizada, introduzca los valores iniciales del vector de parametrización sin restricciones θ. utiliza derivados analíticos para estimar los parámetros cuando se utiliza una función incorporada del kernel, mientras que cuando se utiliza una función de kernel personalizada usa derivados numéricos.fitrgp

Referencias

[1] Rasmussen, C. E. and C. K. I. Williams. Gaussian Processes for Machine Learning. MIT Press. Cambridge, Massachusetts, 2006.

[2] Neal, R. M. Bayesian Learning for Neural Networks. Springer, New York. Lecture Notes in Statistics, 118, 1996.

Consulte también

|

Temas relacionados