Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

TreeBagger

Clase: TreeBagger

Crear bolsa de árboles de decisión

Los árboles de decisión individuales tienden a sobreajustarse. Los árboles de decisión agregados por bootstrap () combinan los resultados de muchos árboles de decisión, lo que reduce los efectos del sobreajuste y mejora la generalización. cultiva los árboles de decisión en el conjunto utilizando muestras de bootstrap de los datos.BolsasTreeBagger Además, selecciona un subconjunto aleatorio de predictores para usarlos en cada división de decisión como en el algoritmo de bosque aleatorio.TreeBagger[1]

De forma predeterminada, los árboles de clasificación de bolsas.TreeBagger Para cargar árboles de regresión en su lugar, especifique.'Method','regression'

Para los problemas de regresión, admite la regresión media y cuantil (es decir, el bosque de regresión de cuantil).TreeBagger[5]

Sintaxis

Mdl = TreeBagger(NumTrees,Tbl,ResponseVarName)
Mdl = TreeBagger(NumTrees,Tbl,formula)
Mdl = TreeBagger(NumTrees,Tbl,Y)
B = TreeBagger(NumTrees,X,Y)
B = TreeBagger(NumTrees,X,Y,Name,Value)

Descripción

Mdl = TreeBagger(NumTrees,Tbl,ResponseVarName) Devuelve un conjunto de árboles de clasificación en bolsas entrenados con los datos de ejemplo de la tabla. es el nombre de la variable de respuesta en.NumTreesTblResponseVarNameTbl

Mdl = TreeBagger(NumTrees,Tbl,formula) Devuelve un conjunto de árboles de clasificación en bolsas entrenados con los datos de ejemplo de la tabla. es un modelo explicativo de la respuesta y un subconjunto de variables predictoras en uso para ajustarse.TblFórmulaTblMdl Especifique usando la notación Wilkinson.Fórmula Para obtener más información, consulte.La notación Wilkinson

Mdl = TreeBagger(NumTrees,Tbl,Y) Devuelve un conjunto de árboles de clasificación utilizando las variables predictoras en las etiquetas de tabla y clase en Vector.TblY

es una matriz de datos de respuesta.Y Elementos de corresponden a las filas de.YTbl Para la clasificación, es el conjunto de etiquetas de clase verdaderas.Y Las etiquetas pueden ser cualquiera, es decir, un vector numérico o lógico, una matriz de caracteres, una matriz de cadenas, una matriz de vectores de caracteres o un vector categórico. convierte las etiquetas en una matriz de vectores de caracteres.variable de agrupaciónTreeBagger Para la regresión, es un vector numérico.Y Para aumentar los árboles de regresión, debe especificar el par nombre-valor.'Method','regression'

B = TreeBagger(NumTrees,X,Y) crea un conjunto de árboles de decisión para predecir la respuesta como una función de los predictores en la matriz numérica de los datos de entrenamiento.BNumTreesYX Cada fila en representa una observación y cada columna representa un predictor o entidad.X

B = TreeBagger(NumTrees,X,Y,Name,Value) especifica pares de nombre-valor de parámetro opcionales:

'InBagFraction'Fracción de datos de entrada para muestrear con sustitución de los datos de entrada para el crecimiento de cada nuevo árbol. El valor predeterminado es 1.
'Cost'

Matriz cuadrada, donde es el costo de clasificar un punto en la clase si su clase verdadera es (es decir, las filas corresponden a la clase verdadera y las columnas corresponden a la clase pronosticada).CC(i,j)ji El orden de las filas y columnas corresponde al orden de las clases de la propiedad del modelo entrenado.CostoClassNamesTreeBaggerB

Alternativamente, puede ser una estructura que tiene dos campos:CostoS

  • que contiene los nombres de grupo como una variable categórica, una matriz de caracteres, una matriz de cadenas o una matriz de vectores de caracteresS.ClassNames

  • que contiene la matriz de costesS.ClassificationCostsC

El valor predeterminado es if y if.C(i,j) = 1i ~= jC(i,j) = 0i = j

Si es altamente sesgado, entonces, para las muestras en el bolso, el software sobremuestrea las observaciones únicas de la clase que tiene una multa grande.Costo Para tamaños de muestra más pequeños, esto podría causar una frecuencia relativa muy baja de las observaciones fuera de bolsa de la clase que tiene una penalización grande. Por lo tanto, el error de out-of-bag Estimado es muy variable, y puede ser difícil de interpretar.

'SampleWithReplacement'para muestrear con reemplazo o para muestrear sin reemplazo.'on''off' Si muestra sin reemplazo, debe establecer un valor menor que uno.'InBagFraction' El valor predeterminado es.'on'
'OOBPrediction'para almacenar información sobre qué observaciones están fuera de la bolsa para cada árbol.'on' Esta información se puede utilizar para calcular las probabilidades de clase previstas para cada árbol del conjunto.oobPrediction El valor predeterminado es.'off'
'OOBPredictorImportance'para almacenar estimaciones fuera de bolsa de importancia característica en el conjunto.'on' El valor predeterminado es.'off' Especificar también establece el valor en.'on''OOBPrediction''on' Si un análisis de la importancia del predictor es su objetivo, entonces también especifique o.'PredictorSelection','curvature''PredictorSelection','interaction-curvature' Para obtener más información, consulte o.fitctreefitrtree
'Method'Ya sea o.'classification''regression' La regresión requiere un numérico.Y
'NumPredictorsToSample'Número de variables que se seleccionan aleatoriamente para cada división de decisión. El valor predeterminado es la raíz cuadrada del número de variables para la clasificación y un tercio del número de variables para la regresión. Los valores válidos son o un entero positivo.'all' Establecer este argumento en cualquier valor válido pero invoca el algoritmo de bosque aleatorio de Breiman.'all'[1]
'NumPrint'Número de ciclos de entrenamiento (árboles cultivados) después de lo cual muestra un mensaje de diagnóstico que muestra el progreso del entrenamiento.TreeBagger El valor predeterminado no es ningún mensaje de diagnóstico.
'MinLeafSize'Número mínimo de observaciones por hoja de árbol. El valor predeterminado es 1 para la clasificación y 5 para la regresión.
'Options'

Estructura que especifica las opciones que rigen el cálculo al aumentar el conjunto de árboles de decisión. Una opción solicita que el cálculo de árboles de decisión en varias réplicas de bootstrap use varios procesadores, si está disponible.Parallel Computing Toolbox™ Dos opciones especifican los flujos de números aleatorios que se utilizarán al seleccionar réplicas de bootstrap. Puede crear este argumento con una llamada a.statset Puede recuperar valores de los campos individuales con una llamada a.statget Los parámetros aplicables son:statset

  • — Si y si una de las está abierta, los árboles de decisión de cómputo dibujados en repeticiones de arranque separadas en paralelo.'UseParallel'trueparpoolParallel Computing Toolbox Si el no está instalado, o no está abierto, el cálculo ocurre en el modo serial.Parallel Computing Toolboxparpool El valor predeterminado es el cálculo en serie.false

    Para sistemas de doble núcleo y superiores, TreeBagger paraleliza el entrenamiento mediante el uso de bloques de creación de subprocesos (TBB).Intel® Por lo tanto, el uso de la opción no es útil en un solo equipo.'UseParallel' Utilice esta opción en un clúster. Para obtener más información sobre TBB, consulte.Intelhttps://software.intel.com/en-us/intel-tbb

  • — Si selecciona cada repetición de bootstrap utilizando un subflujo separado del generador de números aleatorios (también conocido como Stream).'UseSubstreams'true Esta opción solo está disponible con los tipos que admiten subsecuencias: o.RandStream'mlfg6331_64''mrg32k3a' El valor predeterminado es, no use un substream diferente para calcular cada réplica de bootstrap.false

  • — Un objeto o matriz de celdas de estos objetos.StreamsRandStream Si no se especifica, utiliza la secuencia o secuencias predeterminadas.StreamsTreeBagger Si decide especificar, utilice un único objeto excepto en el casoStreams

    • EsUseParalleltrue

    • EsUseSubstreamsfalse

    En ese caso, utilice una matriz de celdas del mismo tamaño que el grupo paralelo.

'Prior'

Probabilidades previas para cada clase. Especifique como uno de:

  • Un vector de caracteres o un escalar de cadena:

    • determina las probabilidades de clase de las frecuencias de clase.'Empirical'Y Si pasa pesos de observación, se utilizan para calcular las probabilidades de clase. Este es el valor predeterminado.

    • establece todas las probabilidades de clase iguales.'Uniform'

  • Un vector (un valor escalar para cada clase). El orden de los elementos corresponde al orden de las clases de la propiedad del modelo entrenado.PriorClassNamesTreeBaggerB

  • Una estructura con dos campos:S

    • que contiene los nombres de clase como una variable categórica, una matriz de caracteres, una matriz de cadenas o una matriz de vectores de caracteresS.ClassNames

    • que contiene un vector de las probabilidades correspondientesS.ClassProbs

Si establece valores para ambos y, las ponderaciones se renormalizan para sumar el valor de la probabilidad anterior en la clase respectiva.WeightsPrior

Si es altamente sesgado, entonces, para las muestras en el bolso, el software sobremuestrea las observaciones únicas de la clase que tiene una gran probabilidad previa.Prior Para tamaños de muestra más pequeños, esto puede causar una frecuencia relativa muy baja de las observaciones fuera de bolsa de la clase que tiene una gran probabilidad previa. Por lo tanto, el error de out-of-bag Estimado es muy variable, y puede ser difícil de interpretar.

'PredictorNames'

Los nombres de variables predictoras, especificados como el par separado por comas que consta de y una matriz de cadenas o matriz de celdas de vectores de caracteres únicos.'PredictorNames' La funcionalidad de depende de la forma en que proporcione los datos de entrenamiento.'PredictorNames'

  • Si proporciona y, a continuación, puede utilizar para dar las variables predictoras en Names.XY'PredictorNames'X

    • El orden de los nombres en debe corresponder al orden de las columnas de.PredictorNamesX Es decir, es el nombre de, es el nombre de, y así sucesivamente.PredictorNames{1}X(:,1)PredictorNames{2}X(:,2) También, y debe ser igual.size(X,2)numel(PredictorNames)

    • De forma predeterminada, es.PredictorNames{'x1','x2',...}

  • Si usted suministra, entonces usted puede utilizar para elegir qué variables predictoras a utilizar en el entrenamiento.Tbl'PredictorNames' Es decir, utiliza las variables predictoras en y la respuesta sólo en el entrenamiento.TreeBaggerPredictorNames

    • debe ser un subconjunto de y no puede incluir el nombre de la variable de respuesta.PredictorNamesTbl.Properties.VariableNames

    • De forma predeterminada, contiene los nombres de todas las variables predictoras.PredictorNames

    • Es una buena práctica para especificar los predictores para el entrenamiento utilizando uno de o sólo.'PredictorNames'Fórmula

'CategoricalPredictors'

Lista de predictores categóricos, especificada como el par separado por comas que consta de y uno de los siguientes.'CategoricalPredictors'

  • Un vector numérico con índices de a, donde es el número de columnas de.1ppX

  • Un vector lógico de longitud, donde una entrada significa que la columna correspondiente de es una variable categórica.ptrueX

  • Matriz de cadenas o matriz de vectores de caracteres, donde cada elemento de la matriz es el nombre de una variable predictora. Los nombres deben coincidir con las entradas en los valores.PredictorNames

  • Una matriz de caracteres, donde cada fila de la matriz es un nombre de una variable predictora. Los nombres deben coincidir con las entradas en los valores.PredictorNames Pad los nombres con espacios en blanco adicionales por lo que cada fila de la matriz de caracteres tiene la misma longitud.

  • , lo que significa que todos los predictores son categóricos.'all'

'ChunkSize'

Tamaño del fragmento, especificado como el par separado por comas que consta de un entero positivo.'ChunkSize' El tamaño del fragmento especifica el número de observaciones en cada fragmento de datos. El valor predeterminado es.50000

Nota

Esta opción solo se aplica cuando se utiliza en matrices altas.TreeBagger Consulte para obtener más información.Capacidades extendidas

Además de los argumentos opcionales anteriores, acepta estos argumentos opcionales y.TreeBaggerfitctreefitrtree

Ejemplos

expandir todo

Cargue el conjunto de datos de iris de Fisher.

load fisheriris

Entrena un conjunto de árboles de clasificación en bolsas usando todo el conjunto de datos. Especifique los alumnos débiles.50 Almacene Qué observaciones están fuera de bolsa para cada árbol.

rng(1); % For reproducibility Mdl = TreeBagger(50,meas,species,'OOBPrediction','On',...     'Method','classification')
Mdl =    TreeBagger Ensemble with 50 bagged decision trees:                     Training X:              [150x4]                     Training Y:              [150x1]                         Method:       classification                  NumPredictors:                    4          NumPredictorsToSample:                    2                    MinLeafSize:                    1                  InBagFraction:                    1          SampleWithReplacement:                    1           ComputeOOBPrediction:                    1  ComputeOOBPredictorImportance:                    0                      Proximity:                   []                     ClassNames:        'setosa'    'versicolor'     'virginica'    Properties, Methods  

es un conjunto.MdlTreeBagger

almacena un vector de celda 50-by-1 de los árboles de clasificación entrenados (objetos del modelo) que componen el conjunto.Mdl.TreesCompactClassificationTree

Trace un gráfico del primer árbol de clasificación entrenado.

view(Mdl.Trees{1},'Mode','graph')

Por defecto, crece árboles profundos.TreeBagger

almacena los índices fuera de bolsa como una matriz de valores lógicos.Mdl.OOBIndices

Trace el error fuera de bolsa sobre el número de árboles de clasificación cultivados.

figure; oobErrorBaggedEnsemble = oobError(Mdl); plot(oobErrorBaggedEnsemble) xlabel 'Number of grown trees'; ylabel 'Out-of-bag classification error';

El error fuera de bolsa disminuye con el número de árboles cultivados.

Para etiquetar las observaciones fuera de bolsa, pase a.MdloobPredict

Cargue el conjunto de datos.carsmall Considere un modelo que predice la economía de combustible de un automóvil debido al desplazamiento del motor.

load carsmall

Entrena un conjunto de árboles de regresión en bolsas usando todo el conjunto de datos. Especifique 100 estudiantes débiles.

rng(1); % For reproducibility Mdl = TreeBagger(100,Displacement,MPG,'Method','regression');

es un conjunto.MdlTreeBagger

Utilizando una bolsa entrenada de árboles de regresión, puede estimar las respuestas de la media condicional o realizar la regresión cuantil para predecir cuantiles condicionales.

Para diez desplazamientos de motor igualmente espaciados entre el desplazamiento mínimo y máximo en la muestra, predecir las respuestas medias condicionales y los cuartes condicionales.

predX = linspace(min(Displacement),max(Displacement),10)'; mpgMean = predict(Mdl,predX); mpgQuartiles = quantilePredict(Mdl,predX,'Quantile',[0.25,0.5,0.75]);

Graficar las observaciones, y las respuestas media estimadas y cucules en la misma figura.

figure; plot(Displacement,MPG,'o'); hold on plot(predX,mpgMean); plot(predX,mpgQuartiles); ylabel('Fuel economy'); xlabel('Engine displacement'); legend('Data','Mean Response','First quartile','Median','Third quartile');

Cargue el conjunto de datos.carsmall Considere un modelo que predice la economía de combustible media de un automóvil debido a su aceleración, número de cilindros, cilindrada del motor, potencia, fabricante, año del modelo y peso. Considere, y como variables categóricas.CylindersMfgModel_Year

load carsmall Cylinders = categorical(Cylinders); Mfg = categorical(cellstr(Mfg)); Model_Year = categorical(Model_Year); X = table(Acceleration,Cylinders,Displacement,Horsepower,Mfg,...     Model_Year,Weight,MPG); rng('default'); % For reproducibility

Mostrar el número de categorías representadas en las variables categóricas.

numCylinders = numel(categories(Cylinders))
numCylinders = 3 
numMfg = numel(categories(Mfg))
numMfg = 28 
numModelYear = numel(categories(Model_Year))
numModelYear = 3 

Debido a que hay 3 categorías sólo en y, el estándar CART, algoritmo de división de predictor prefiere dividir un predictor continuo sobre estas dos variables.CylindersModel_Year

Entrenar un bosque aleatorio de 200 árboles de regresión utilizando todo el conjunto de datos. Para cultivar árboles no sesgados, especifique el uso de la prueba de curvatura para dividir los predictores. Dado que faltan valores en los datos, especifique el uso de divisiones sustitutas. Almacene la información fuera de la bolsa para estimar la importancia del predictor.

Mdl = TreeBagger(200,X,'MPG','Method','regression','Surrogate','on',...     'PredictorSelection','curvature','OOBPredictorImportance','on');

almacena estimaciones de importancia predictoras en la propiedad.TreeBaggerOOBPermutedPredictorDeltaError Compare las estimaciones utilizando un gráfico de barras.

imp = Mdl.OOBPermutedPredictorDeltaError;  figure; bar(imp); title('Curvature Test'); ylabel('Predictor importance estimates'); xlabel('Predictors'); h = gca; h.XTickLabel = Mdl.PredictorNames; h.XTickLabelRotation = 45; h.TickLabelInterpreter = 'none';

En este caso, es el predictor más importante, seguido de.Model_YearWeight

Compare las estimaciones de importancia del predictor calculadas a partir de un bosque aleatorio que cultiva árboles utilizando CART estándar.imp

MdlCART = TreeBagger(200,X,'MPG','Method','regression','Surrogate','on',...     'OOBPredictorImportance','on');  impCART = MdlCART.OOBPermutedPredictorDeltaError;  figure; bar(impCART); title('Standard CART'); ylabel('Predictor importance estimates'); xlabel('Predictors'); h = gca; h.XTickLabel = Mdl.PredictorNames; h.XTickLabelRotation = 45; h.TickLabelInterpreter = 'none';

En este caso, un predictor continuo, es el más importante.Weight Los siguientes dos predictores de mayor importancia son seguidos estrechamente por, que es un predictor continuo.Model_YearHorsepower

Entrenar un conjunto de árboles de clasificación en bolsas para las observaciones en una matriz alta, y encontrar la probabilidad de clasificación errónea de cada árbol en el modelo para observaciones ponderadas. El conjunto de datos de ejemplo es un conjunto de datos de gran tamaño que contiene un archivo tabular de datos de vuelo de la aerolínea.airlinesmall.csv

Cree un almacén de datos que hace referencia a la ubicación de la carpeta que contiene el conjunto de datos. Seleccione un subconjunto de las variables con las que trabajar y trate los valores como datos faltantes para que los reemplace por valores.'NA'datastoreNaN Cree una tabla alta que contenga los datos en el almacén.

ds = datastore('airlinesmall.csv'); ds.SelectedVariableNames = {'Month','DayofMonth','DayOfWeek',...                             'DepTime','ArrDelay','Distance','DepDelay'}; ds.TreatAsMissing = 'NA'; tt  = tall(ds) % Tall table
Starting parallel pool (parpool) using the 'local' profile ... Connected to the parallel pool (number of workers: 6).  tt =    M×7 tall table      Month    DayofMonth    DayOfWeek    DepTime    ArrDelay    Distance    DepDelay     _____    __________    _________    _______    ________    ________    ________       10          21            3          642          8         308          12         10          26            1         1021          8         296           1         10          23            5         2055         21         480          20         10          23            5         1332         13         296          12         10          22            4          629          4         373          -1         10          28            3         1446         59         308          63         10           8            4          928          3         447          -2         10          10            6          859         11         954          -1          :          :             :           :          :           :           :       :          :             :           :          :           :           : 

Al realizar cálculos en matrices altas, el entorno de ejecución predeterminado utiliza la sesión de MATLAB local o un grupo paralelo local (si tiene Parallel Computing Toolbox™). Puede utilizar la función para cambiar el entorno de ejecución.mapreducer

Determine los vuelos que se retrasan 10 minutos o más definiendo una variable lógica que es verdadera para un vuelo tardío. Esta variable contiene las etiquetas de clase. Una vista previa de esta variable incluye las primeras filas.

Y = tt.DepDelay > 10 % Class labels
Y =    M×1 tall logical array     1    0    1    1    0    1    0    0    :    : 

Cree una matriz alta para los Datos predictores.

X = tt{:,1:end-1} % Predictor data
X =    M×6 tall double matrix            10          21           3         642           8         308           10          26           1        1021           8         296           10          23           5        2055          21         480           10          23           5        1332          13         296           10          22           4         629           4         373           10          28           3        1446          59         308           10           8           4         928           3         447           10          10           6         859          11         954           :           :            :          :           :           :           :           :            :          :           :           : 

Cree una matriz alta para los pesos de observación asignando arbitrariamente pesos dobles a las observaciones de la clase 1.

W = Y+1; % Weights

Quite las filas de, y que contengan datos que faltan.XYW

R = rmmissing([X Y W]); % Data with missing entries removed X = R(:,1:end-2);  Y = R(:,end-1);  W = R(:,end);

Entrena un conjunto de 20 árboles de decisión en bolsas usando todo el conjunto de datos. Especifique un vector de peso y las probabilidades previas uniformes. Para reproducibilidad, establezca las semillas de los generadores de números aleatorios utilizando y.rngtallrng Los resultados pueden variar en función del número de trabajadores y del entorno de ejecución de los arrays altos. Para obtener más información, consulte.Controle dónde se ejecuta el código (MATLAB)

rng('default')  tallrng('default') tMdl = TreeBagger(20,X,Y,'Weights',W,'Prior','Uniform')
Evaluating tall expression using the Parallel Pool 'local': - Pass 1 of 1: Completed in 8.4 sec Evaluation completed in 8.6 sec Evaluating tall expression using the Parallel Pool 'local': - Pass 1 of 1: Completed in 4 sec Evaluation completed in 11 sec Evaluating tall expression using the Parallel Pool 'local': - Pass 1 of 1: Completed in 7.7 sec Evaluation completed in 7.8 sec 
tMdl =    CompactTreeBagger Ensemble with 20 bagged decision trees:               Method:       classification        NumPredictors:                    6           ClassNames: '0' '1'    Properties, Methods  

es un conjunto con 20 árboles de decisión en bolsas.tMdlCompactTreeBagger

Calcule la probabilidad de clasificación errónea de cada árbol en el modelo. Atribuir un peso contenido en el vector a cada observación mediante el argumento de par nombre-valor.W'Weights'

terr = error(tMdl,X,Y,'Weights',W)
Evaluating tall expression using the Parallel Pool 'local': - Pass 1 of 1: Completed in 5.9 sec Evaluation completed in 6 sec 
terr = 20×1

    0.1422
    0.1225
    0.1113
    0.1082
    0.1036
    0.1022
    0.1001
    0.1000
    0.0982
    0.0982
      ⋮

Encuentre la probabilidad de clasificación errónea promedio para el conjunto de árboles de decisión.

avg_terr = mean(terr)
avg_terr = 0.1025 

Sugerencias

  • Evite grandes desviaciones de error de fuera de bolsa estimadas estableciendo una matriz de coste de clasificación errónea más equilibrada o un vector de probabilidad anterior menos sesgado.

  • La propiedad de almacena una matriz de celdas o objetos de modelo.TreesBB.NumTreesCompactClassificationTreeCompactRegressionTree Para una visualización textual o gráfica del árbol t en la matriz de celdas, escriba

    view(B.Trees{t})

  • El carrito estándar tiende a seleccionar predictores divididos que contienen muchos valores distintos, por ejemplo, variables continuas, sobre aquellos que contienen pocos valores distintos, por ejemplo, variables categóricas.[4] Considere la posibilidad de especificar la curvatura o la prueba de interacción si se cumple alguna de las siguientes acciones:

    • Si hay predictores que tienen relativamente menos valores distintos que otros predictores, por ejemplo, si el conjunto de datos del predictor es heterogéneo.

    • Si un análisis de la importancia del predictor es su objetivo. almacena estimaciones de importancia predictoras en la propiedad de.TreeBaggerOOBPermutedPredictorDeltaErrorMdl

    Para obtener más información sobre la selección de predictor, consulte para árboles de clasificación o para árboles de regresión.PredictorSelectionPredictorSelection

Algoritmos

  • genera muestras en bolsa mediante las clases de sobremuestreo con grandes costos de clasificación errónea y clases de submuestreo con pequeños costos de clasificación errónea.TreeBagger En consecuencia, las muestras fuera de bolsa tienen menos observaciones de las clases con grandes costos de clasificación errónea y más observaciones de clases con pequeños costos de clasificación errónea. Si entrena un conjunto de clasificación usando un pequeño conjunto de datos y una matriz de costos altamente sesgada, entonces el número de observaciones fuera de bolsa por clase podría ser muy bajo. Por lo tanto, el error de out-of-bag estimado podría tener una varianza grande y podría ser difícil de interpretar. El mismo fenómeno puede ocurrir para las clases con grandes probabilidades previas.

  • Para obtener más información sobre la selección de predictores divididos y algoritmos de división de nodos al cultivar árboles de decisión, consulte para árboles de clasificación y árboles de regresión.AlgoritmosAlgoritmos

Funcionalidad alternativa

ofrece tres objetos para embolsado y bosque aleatorio:Statistics and Machine Learning Toolbox™

Para obtener más información sobre las diferencias entre los conjuntos (y) en bolsas (y), consulte.TreeBaggerClassificationBaggedEnsembleRegressionBaggedEnsembleLa comparación y los conjuntos en bolsasTreeBagger

Referencias

[1] Breiman, L. Random Forests. Machine Learning 45, pp. 5–32, 2001.

[2] Breiman, L., J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Boca Raton, FL: CRC Press, 1984.

[3] Loh, W.Y. “Regression Trees with Unbiased Variable Selection and Interaction Detection.” Statistica Sinica, Vol. 12, 2002, pp. 361–386.

[4] Loh, W.Y. and Y.S. Shih. “Split Selection Methods for Classification Trees.” Statistica Sinica, Vol. 7, 1997, pp. 815–840.

[5] Meinshausen, N. “Quantile Regression Forests.” Journal of Machine Learning Research, Vol. 7, 2006, pp. 983–999.

Capacidades ampliadas

Introducido en R2009a