Text Analytics Toolbox™ proporciona algoritmos y visualizaciones para preprocesar, analizar y modelar datos textuales. Los modelos creados con esta toolbox se pueden emplear en aplicaciones tales como análisis de sentimiento, mantenimiento predictivo y modelado de temas.
Text Analytics Toolbox incluye herramientas para procesar texto sin formato de fuentes tales como registros de equipos, canales de noticias, encuestas, informes de operadores y redes sociales. Puede extraer texto de formatos de archivo conocidos, preprocesar el texto sin formato, extraer palabras concretas, convertir texto en representaciones numéricas y crear modelos estadísticos.
Mediante técnicas de machine learning tales como LSA, LDA y word embedding, es posible localizar clusters y crear características a partir de conjuntos de datos textuales multidimensionales. Las características creadas con Text Analytics Toolbox se pueden combinar con características de otros orígenes de datos para crear modelos de machine learning que utilicen datos textuales, numéricos y de otros tipos.
Más información:
Extracción de datos textuales
Importe datos textuales a MATLAB® desde archivos individuales o grandes conjuntos de archivos, incluidos archivos PDF, HTML, de Microsoft® Word® y de Excel®.
Visualización de texto
Explore visualmente conjuntos de datos textuales con nubes de palabras y diagramas de dispersión de texto.
Soporte de idiomas
Text Analytics Toolbox brinda prestaciones de preprocesamiento específicas para los idiomas inglés, japonés, alemán y coreano. La mayoría de las funciones se pueden usar también con texto en otros idiomas.
Limpieza de datos textuales
Aplique funciones de filtrado de alto nivel para eliminar contenido no pertinente, tales como direcciones URL, etiquetas HTML y puntuación, y corregir la ortografía.
Filtrado de palabras irrelevantes y normalización de palabras según su raíz
De prioridad a los datos textuales significativos en el análisis filtrando palabras comunes, palabras que aparecen con mucha o poca frecuencia, y palabras muy largas o muy cortas. Reduzca el vocabulario y céntrese en el sentido o el sentimiento general de un documento convirtiendo palabras a su lexema o lematizándolas según aparecen en un diccionario.
Extracción de características lingüísticas
Divida automáticamente el texto sin formato en una serie de palabras mediante un algoritmo de tokenización. Agregue límites de oraciones, detalles de categorías gramaticales y otra información relevante al contexto.
Recuento de palabras y n-gramas
Calcule estadísticas sobre la frecuencia de las palabras para representar datos textuales de forma numérica.
Word embedding y codificación
Entrene modelos de word embedding tales como modelos word2vec de bolsa de palabras continua (CBOW) y modelos skip-gram. Importe modelos previamente entrenados, incluidos fastText y GloVe.
Modelado de temas
Descubra y visualice los patrones, las tendencias y las relaciones complejas subyacentes en grandes conjuntos de datos textuales utilizando algoritmos de machine learning tales como asignación de Dirichlet latente (LDA) y análisis semántico latente (LSA).
Resumen de documentos y extracción de palabras clave
Extraiga el resumen y las palabras clave relevantes de uno o más documentos automáticamente y evalúe la similitud y la importancia de los documentos.
Análisis de sentimiento
Identifique las posturas y opiniones expresadas en datos textuales para categorizar las declaraciones como positivas, neutrales o negativas. Cree modelos que puedan predecir el sentimiento en tiempo real.
Deep learning con datos textuales
Realice análisis de sentimiento, clasificación, resumen y generación de textos mediante algoritmos de Deep Learning.
Modelos de transformadores
Aproveche modelos de transformadores como BERT, FinBERT, y GPT-2 para realizar transferencia del aprendizaje con datos textuales para análisis de sentimiento, clasificación y resumen.
Clasificación de texto
Use word embeddings, que permiten identificar las categorías de texto mediante deep learning, para clasificar descripciones de texto.
Generación de código
Utilice deep learning para generar texto nuevo basado en el texto observado.