MATLAB simplifica el análisis de big data accediendo e integrándose con almacenamientos de grandes cantidades de datos existentes y se adapta a sus necesidades de procesamiento de datos en función de los recursos disponibles.
Con MATLAB, puede:
- Acceder a grandes cantidades de datos de diversos almacenamientos, tales como sistemas de archivos tradicionales, almacenamientos basados en la nube (AWS® S3, Azure® Blob), bases de datos SQL y NoSQL, y plataformas de datos
- Limpiar, analizar y desarrollar modelos de Machine Learning con muestras de datos de menor tamaño
- Escalar y aplicar el mismo código a big data sin necesidad de reescribir algoritmos
- Utilizar capacidad de procesamiento adaptada a sus necesidades, desde un equipo local, clusters HPC tradicionales, clusters Spark™ y plataformas de datos en la nube
Uso de MATLAB y Simulink para análisis de big data
Acceso a datos
Puede utilizar MATLAB para leer datos de grandes colecciones de archivos, bases de datos, plataformas de datos y sistemas de almacenamiento en la nube. Los almacenes de datos de MATLAB permiten acceder a datos que superan la capacidad de la memoria de un único equipo o que están distribuidos en varios archivos. Estos almacenes de datos admiten diversos formatos de archivo (CSV, Parquet y MDF, entre otros) y sistemas de almacenamiento (AWS S3, Azure Blob, HDFS, bases de datos, plataformas de datos). También puede crear sus propios almacenes de datos para formatos de archivo personalizados.
Más información
- Imágenes
- Archivos de Parquet y Avro
- Texto tabular, CSV y hojas de cálculo
- Archivos MDF
- Bases de datos (SQL, NoSQL)
- Databricks, Domino Data Lab y Cloudera®
Explore, limpie, transforme y desarrolle modelos predictivos
Con MATLAB, puede realizar análisis de datos e ingeniería de datos de big data de manera eficiente. MATLAB permite realizar predicate pushdown en archivos de Parquet, de modo que puede filtrar big data en el origen. Una vez que se han leído, puede transformar y combinar datos de diferentes almacenes de datos para preprocesamiento e ingeniería de datos.
Los tall arrays de MATLAB emplean un marco de evaluación perezoso, que permite ejecutar código basado en table y timetable en memoria en big data sin necesidad de reescribirlo. Los tall arrays admiten cientos de funciones de manipulación de datos, matemáticas, estadísticas y Machine Learning, que se pueden utilizar para análisis estadísticos simples o para desarrollar modelos predictivos de big data.
Más información
- Tall arrays
- Agregue dos líneas a su código de MATLAB para que funcione con big data (blog)
- Transformación y combinación de almacenes de datos
Integre y ejecute en infraestructura informática de big data
MATLAB puede ayudar a procesar big data de manera eficiente integrándolo en la infraestructura existente. Puede escalar y ejecutar código de MATLAB interactivamente utilizando procesamiento en paralelo, y en modo de producción desplegado. Puede desplegar análisis en streaming y las aplicaciones por lotes gratuitamente. Además, puede ejecutar código y modelos de MATLAB con big data en diferentes plataformas de datos en la nube, tales como Databricks, Domino Data Lab y Google® BigQuery.