Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Configurar almacén de equipos para su procesamiento en diferentes máquinas o clústeres

Puede crear y guardar un almacén de objetos en una plataforma que se cargue y funcione sin problemas en una plataforma diferente mediante la configuración de la propiedad 'AlternateFileSystemRoots' del almacén de materiales. Utilice esta propiedad cuando:

  • Se crea un almacén de datos en un equipo local y es necesario tener acceso y procesarlos en otro equipo (posiblemente ejecutando un sistema operativo diferente).

  • Usted procesa su almacén de almacenamiento de la computadora con la informática paralela y distribuida que implica diversas plataformas, nube o máquinas del racimo.

En este ejemplo se demuestra el uso de la propiedad 'AlternateFileSystemRoots' para TabularTextDatastore. Sin embargo, puede utilizar la misma sintaxis para cualquiera de estos almacenes de almacenamiento: SpreadsheetDatastore, ImageDatastore, FileDatastore, KeyValueDatastorey TallDatastore. Para utilizar la funcionalidad 'AlternateFileSystemRoots' para almacenes de almacenamiento personalizados, consulte matlab.io.datastore.DsFileSet y Desarrollo de almacenes de almacenamiento personalizados.

Guardar almacén de archivos y cargar en diferentes plataformas de filesystems

Cree un almacén de ficheros en un sistema de archivos que cargue y trabaje sin problemas en un equipo diferente (posiblemente de un sistema operativo diferente). Por ejemplo, cree un almacén de archivos en un equipo Windows® , guárdelo y, a continuación, carguelo en un equipo Linux® .

En primer lugar, antes de crear y guardar el almacén de datos, identifique los paths de root para sus Data en las diferentes plataformas. Las rutas de root diferirán en función del sistema de archivos o de la máquina. Por ejemplo, si tiene datos en el equipo local y una copia de los datos de un clúster, obtenga las rutas de acceso de root para acceder a los datos:

  • "Z:\DataSet" para su máquina Windows local.

  • "/nfs-bldg001/DataSet" para su clúster Linux .

A continuación, asocie estas rutas de root mediante el parámetro 'AlternateFileSystemRoots' del almacén de almacenamiento de la misma.

altRoots = ["Z:\DataSet","/nfs-bldg001/DataSet"]; ds = tabularTextDatastore('Z:\DataSet','AlternateFileSystemRoots',altRoots); 

Examine la propiedad Files del almacén de objetos. En este caso, la propiedad Files contiene la ubicación de los datos a los que tiene acceso su equipo Windows.

ds.Files
ans =    5×1 cell array      {'Z:\DataSet\datafile01.csv'}     {'Z:\DataSet\datafile02.csv'}     {'Z:\DataSet\datafile03.csv'}     {'Z:\DataSet\datafile04.csv'}     {'Z:\DataSet\datafile05.csv'}
Guarde el almacén de la misma.
save ds_saved_on_Windows.mat ds 
Cargue el almacén de archivos en una plataforma Linux y examine la propiedad Files . Dado que la ruta de acceso root 'Z:\DataSet' no es accesible en el clúster de Linux, en el momento de la carga, la función del almacén de datos actualiza automáticamente las rutas raíz basándose en los valores especificados en el parámetro 'AlternateFileSystemRoots' . La propiedad Files del almacén de datos contiene ahora las rutas de root actualizadas para sus Data en el clúster de Linux.
load ds_saved_on_Windows.mat ds.Files
ans =    5×1 cell array      {'/nfs-bldg001/DataSet/datafile01.csv'}     {'/nfs-bldg001/DataSet/datafile02.csv'}     {'/nfs-bldg001/DataSet/datafile03.csv'}     {'/nfs-bldg001/DataSet/datafile04.csv'}     {'/nfs-bldg001/DataSet/datafile05.csv'}
Ahora puede procesar y analizar este almacén de los mismos en su máquina Linux.

Procese el almacén de los almacenes usando la informática paralela y distribuida

Para procesar su almacén de almacenamiento de la computadora con la informática paralela y distribuida que implica diversas plataformas, nube o máquinas de racimo, usted debe predefinir el parámetro de 'AlternateFileSystemRoots' . En este ejemplo se muestra cómo crear un almacén de datos en el equipo local, analizar una pequeña parte de la información y, a continuación, utilizar Parallel Computing Toolbox™ y MATLAB® Distributed Computing Server™ para ampliar el análisis a todo el conjunto de datasets.

Cree un almacén de valores y asigne un valor a la propiedad 'AlternateFileSystemRoots' . Para establecer el valor de la propiedad 'AlternateFileSystemRoots' , identifique las rutas de origen de los datos en las distintas plataformas. Las rutas de origen difieren en función del sistema de archivos o de la máquina. Por ejemplo, identifique las rutas de acceso de datos desde el equipo y el clúster:

  • "Z:\DataSet" de su máquina Windows local.

  • "/nfs-bldg001/DataSet" de la MATLAB Distributed Computing Server Linux Cluster.

A continuación, asocie estas rutas de root mediante la propiedad AlternateFileSystemRoots .

altRoots = ["Z:\DataSet","/nfs-bldg001/DataSet"]; ds = tabularTextDatastore('Z:\DataSet','AlternateFileSystemRoots',altRoots); 

Analice una pequeña parte de los datos en el equipo local. Por ejemplo, obtenga un subconjunto particionado de los datos, limpie los datos quitando las entradas faltantes y examine una gráfica de las variables.

tt = tall(partition(ds,100,1));  summary(tt);  % analyze your data                         tt = rmmissing(tt);                plot(tt.MyVar1,tt.MyVar2)      

Escale su análisis a todo el conjunto de datasets utilizando MATLAB Distributed Computing Server Cluster (Linux Cluster). Por ejemplo, inicie un grupo de trabajo utilizando el perfil de clúster y, a continuación, realice análisis en todo el conjunto de datasets utilizando capacidades de cálculo paralelas y distribuidas.

parpool('MyMjsProfile')  tt = tall(ds);           summary(tt); % analyze your data tt = rmmissing(tt);                plot(tt.MyVar1,tt.MyVar2)

Consulte también

| | | | | |

Temas relacionados