Esta página aún no se ha traducido para esta versión. Puede ver la versión más reciente de esta página en inglés.

Asignaciones de tipos de datos parquetApache

representa datos orientados a columnas con tablas y calendarios.MATLAB® Cada variable de una tabla o calendario puede tener un tipo de datos diferente y cualquier número de columnas. Los vectores de columna son la forma más común de las variables de tabla y horario.

El formato de archivo parquet se utiliza para datos heterogéneos orientados a columnas.Apache™ Al igual que en las tablas y los calendarios, cada una de las columnas de un archivo parquet puede tener tipos de datos diferentes.MATLAB

A pesar de su similitud, los tipos de datos permitidos en tablas y calendarios no siempre se asignan perfectamente a los tipos de datos permitidos en los archivos parquet.MATLAB En algunos casos, es necesario realizar conversiones de tipos de datos para retener información en los datos (por ejemplo, valores faltantes).MATLAB Esta conversión a veces puede resultar en una pérdida de precisión en los datos.

En general, las tablas y los horarios tienen estos comportamientos cuando se convierten en archivos parquet:MATLAB

  • Las propiedades de tabla establecidas en la tabla original no se guardan.

  • Los nombres de fila de tabla o los tiempos de fila de calendario se convierten en una nueva variable de tabla antes de escribirse.

  • Al leer un nombre de variable de un archivo parquet, los nombres de variables de tabla no válidas se convierten en nombres de variables de tabla válidos.

En las tablas siguientes se resumen los tipos de datos representables en tablas y calendarios, así como la forma en que estas variables se representan en archivos parquet.MATLAB Estas asignaciones de tipos de datos pueden ir en ambas direcciones (→ parquet y parquet →), a menos que se indique lo contrario.MATLABMATLAB Los archivos parquet utilizan un pequeño número de tipos de datos primitivos (o).physical Los tipos extienden los tipos físicos especificando cómo deben interpretarse.logical Los tipos de datos de parquet que no se cubren aquí no se admiten para leer o escribir en archivos parquet (JSON, BSON, binario, etcétera).

Tipos de datos numéricos

Tipo de variable de tabla o horarioMATLABTipo de datos parquetApacheNotas

Physical Type

Logical Type

double

DOUBLE

NONE

convierte los números de punto flotante que faltan en un archivo parquet en valores.MATLABNaN

single

FLOAT

NONE

int8

INT32

INT_8

Al leer un archivo parquet, si una matriz con tipo entero contiene valores faltantes, la matriz se convierte en el tipo de datos en lugar de un tipo de datos entero.MATLABdouble Los valores faltantes se establecen en.NaN

Para los enteros de 64 bits, esta conversión puede provocar el truncamiento de valores que son mayores en magnitud que.flintmax

uint8

UINT_8

int16

INT_16

uint16

UINT_16

int32

NONE

uint32

UINT_32

int64

INT64

NONE

uint64

UINT_64

logical

BOOLEAN

NONE

Al leer un archivo parquet, si una matriz con tipo contiene valores faltantes, la matriz se convierte en el tipo de datos en lugar del tipo de datos.BOOLEANMATLABdoublelogical Los valores faltantes se establecen en.NaN

Tipos de datos de texto

Tipo de variable de tabla o horarioMATLABTipo de datos parquetApacheNotas

Physical Type

Logical Type

categorical

BYTE_ARRAY

UTF8

Las matrices categóricas se convierten en matrices de cadenas cuando se escriben en archivos parquet. Los valores categóricos se convierten en cadenas antes de escribirse.<undefined><missing>

string

, y todos están asignados al mismo tipo de datos parquet, y ese tipo de datos siempre se lee como una matriz de cadenas.stringcharcellstrMATLAB

char

(matriz de celdas de vectores de caracteres)cellstr

Tipos de datos de fecha y hora

Tipo de variable de tabla o horarioMATLABTipo de datos parquetApacheNotas

Physical Type

Logical Type

datetime

INT32

DATE

las matrices DateTime escritas en un archivo parquet utilizan formato y tienen la precisión truncada a 1 microsegundo.MATLABTIMESTAMP_MICROS La configuración del formato de visualización no se guarda.

INT64

TIMESTAMP_MILLIS

TIMESTAMP_MICROS

duration

INT32

TIME_MILLIS

matrices de duración escritas en un formato de uso de archivo parquet y tienen la precisión truncada a 1 microsegundo.MATLABTIME_MICROS La configuración del formato de visualización no se guarda.

INT64

TIME_MICROS

Consulte también

| |