Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Leer y analizar archivo de secuenciaHadoop

Este ejemplo muestra cómo crear un almacén de datos para un archivo Sequence que contiene datos de clave-valor. A continuación, puede leer y procesar los datos de un fragmento a la vez. Los archivos de secuencia son salidas de operaciones que utilizan.mapreduceHadoop®

Establezca la variable de entorno adecuada en la ubicación donde está instalado.Hadoop En este caso, establezca la variable de entorno.MATLAB_HADOOP_INSTALL

setenv('MATLAB_HADOOP_INSTALL','/mypath/hadoop-folder')

hadoop-folder es la carpeta donde está instalado yHadoop mypath es la ruta de acceso a esa carpeta.

Cree un almacén de datos desde el archivo de ejemplo, utilizando la función.mapredout.seqdatastore El archivo de muestra contiene claves únicas que representan códigos de aerolínea y los valores correspondientes que representan el número de vuelos operados por ese transportista.

ds = datastore('mapredout.seq') 
ds =    KeyValueDatastore with properties:         Files: {               ' ...\matlab\toolbox\matlab\demos\mapredout.seq'               }     ReadSize: 1 key-value pairs     FileType: 'seq'

Devuelve un.datastoreKeyValueDatastore La función determina automáticamente el tipo de almacén de datos adecuado para crear.datastore

Establezca la propiedad en seis para que cada llamada lea como máximo seis pares clave-valor.ReadSizeread

ds.ReadSize = 6; 

Lea subconjuntos de los datos utilizando la función en un bucle.dsreadwhile Para cada subconjunto de datos, calcule la suma de los valores. Almacene la suma de cada subconjunto en una matriz denominada.sums El bucle se ejecuta hasta que vuelve.whilehasdata(ds)false

sums = []; while hasdata(ds)     T = read(ds);     T.Value = cell2mat(T.Value);     sums(end+1) = sum(T.Value); end

Ver el último subconjunto de pares clave-valor leídos.

T
T =         Key       Value     ________    _____      'WN'        15931     'XE'         2357     'YV'          849     'ML (1)'       69     'PA (1)'      318

Calcule el número total de vuelos operados por todos los transportistas.

numflights = sum(sums)
numflights =        123523 

Consulte también

| | |

Temas relacionados