Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Configurar almacén de datos para el procesamiento en diferentes máquinas o clústeres

Puede crear y guardar un almacén de datos en una plataforma que cargue y trabaje sin problemas en una plataforma diferente configurando la propiedad del almacén de datos.'AlternateFileSystemRoots' Utilice esta propiedad cuando:

  • Cree un almacén de datos en un equipo local y necesite acceder a los datos y procesarlos en otro equipo (posiblemente ejecutando un sistema operativo diferente).

  • El almacén de datos se procesa con computación paralela y distribuida que involucra diferentes plataformas, máquinas en la nube o clústeres.

En este ejemplo se muestra el uso de la propiedad para.'AlternateFileSystemRoots'TabularTextDatastore Sin embargo, puede usar la misma sintaxis para cualquiera de estos almacenes de datos:,,,, y.SpreadsheetDatastoreImageDatastoreParquetDatastoreFileDatastoreKeyValueDatastoreTallDatastore Para utilizar la funcionalidad de los almacenes de datos personalizados, consulte y.'AlternateFileSystemRoots'matlab.io.datastore.DsFileSetDesarrollar almacén de datos personalizado

Guardar almacén de datos y cargar en diferente plataforma de sistema de archivos

Cree un almacén de datos en un sistema de archivos que cargue y trabaje sin problemas en un equipo diferente (posiblemente de un sistema operativo diferente). Por ejemplo, cree un almacén de datos en una máquina, guárdelo y, a continuación, cárgarla en una máquina.Windows®Linux®

En primer lugar, antes de crear y guardar el almacén de datos, identifique las rutas de acceso de raíz de las distintas plataformas. Las rutas de acceso raíz diferirán según la máquina o el sistema de archivos. Por ejemplo, si tiene datos en el equipo local y una copia de los datos en un clúster, obtenga las rutas de acceso raíz para acceder a los datos:

  • para la máquina local."Z:\DataSet"Windows

  • para el clúster."/nfs-bldg001/DataSet"Linux

A continuación, asocie estas rutas de acceso raíz mediante el parámetro del almacén de datos.'AlternateFileSystemRoots'

altRoots = ["Z:\DataSet","/nfs-bldg001/DataSet"]; ds = tabularTextDatastore('Z:\DataSet','AlternateFileSystemRoots',altRoots); 

Examine la propiedad del almacén de datos.Files En este caso, la propiedad contiene la ubicación de los datos que tiene acceso el equipo Windows.Files Guarde el almacén de datos. Cargue el almacén de datos en una plataforma Linux y examine la propiedad.

ds.Files
ans =    5×1 cell array      {'Z:\DataSet\datafile01.csv'}     {'Z:\DataSet\datafile02.csv'}     {'Z:\DataSet\datafile03.csv'}     {'Z:\DataSet\datafile04.csv'}     {'Z:\DataSet\datafile05.csv'}
save ds_saved_on_Windows.mat ds 
Files Dado que la ruta de acceso raíz no es accesible en el clúster de Linux, en tiempo de carga, la función de almacén de datos actualiza automáticamente las rutas de acceso raíz en función de los valores especificados en el parámetro.'Z:\DataSet''AlternateFileSystemRoots' La propiedad del almacén de datos ahora contiene las rutas de acceso de raíz actualizadas para su información en el clúster de Linux. Ahora puede procesar y analizar este almacén de datos en su máquina Linux.Files
load ds_saved_on_Windows.mat ds.Files
ans =    5×1 cell array      {'/nfs-bldg001/DataSet/datafile01.csv'}     {'/nfs-bldg001/DataSet/datafile02.csv'}     {'/nfs-bldg001/DataSet/datafile03.csv'}     {'/nfs-bldg001/DataSet/datafile04.csv'}     {'/nfs-bldg001/DataSet/datafile05.csv'}

Procese el almacén de datos mediante computación distribuida y paralela

Para procesar el almacén de datos con computación paralela y distribuida que implique diferentes plataformas, máquinas en la nube o clústeres, debe predefinir el parámetro.'AlternateFileSystemRoots' En este ejemplo se muestra cómo crear un almacén de datos en el equipo local, analizar una pequeña parte de los datos y, a continuación, usar yParallel Computing Toolbox™ MATLAB®Parallel Server™ para escalar el análisis a todo el DataSet.

Cree un almacén de datos y asigne un valor a la propiedad.'AlternateFileSystemRoots' Para establecer el valor de la propiedad, identifique las rutas de acceso raíz de los datos en las distintas plataformas.'AlternateFileSystemRoots' Las rutas de acceso raíz difieren según la máquina o el sistema de archivos. Por ejemplo, identifique las rutas raíz para el acceso a datos desde el equipo y el clúster:

  • de su máquina local."Z:\DataSet"Windows

  • de la"/nfs-bldg001/DataSet" MATLABParallel Server Clúster.Linux

A continuación, asocie estas rutas de acceso raíz mediante la propiedad.AlternateFileSystemRoots

altRoots = ["Z:\DataSet","/nfs-bldg001/DataSet"]; ds = tabularTextDatastore('Z:\DataSet','AlternateFileSystemRoots',altRoots); 

Analice una pequeña parte de los datos en el equipo local. Por ejemplo, obtener un subconjunto particionado de los datos, limpiar los datos quitando las entradas que faltan y examinar una gráfica de las variables.

tt = tall(partition(ds,100,1));  summary(tt);  % analyze your data                         tt = rmmissing(tt);                plot(tt.MyVar1,tt.MyVar2)      

Escale el análisis a todo el conjunto de datos mediante MATLABParallel Server clúster (clúster de Linux). Por ejemplo, inicie un grupo de trabajo mediante el perfil de clúster y, a continuación, realice análisis en todo el conjunto de datos mediante el uso de capacidades de computación distribuidas y paralelas.

parpool('MyMjsProfile')  tt = tall(ds);           summary(tt); % analyze your data tt = rmmissing(tt);                plot(tt.MyVar1,tt.MyVar2)

Consulte también

| | | | | |

Temas relacionados