Text Analytics Toolbox

Analice y modele datos textuales

Text Analytics Toolbox™ proporciona algoritmos y visualizaciones para preprocesar, analizar y modelar datos textuales. Los modelos creados con esta toolbox se pueden emplear en aplicaciones tales como análisis de sentimiento, mantenimiento predictivo y modelado de temas.

Text Analytics Toolbox incluye herramientas para procesar texto sin formato de fuentes tales como registros de equipos, canales de noticias, encuestas, informes de operadores y redes sociales. Puede extraer texto de formatos de archivo conocidos, preprocesar el texto sin formato, extraer palabras concretas, convertir texto en representaciones numéricas y crear modelos estadísticos.

Mediante técnicas de machine learning tales como LSA, LDA y word embedding, es posible localizar clusters y crear características a partir de conjuntos de datos textuales multidimensionales. Las características creadas con Text Analytics Toolbox se pueden combinar con características de otros orígenes de datos para crear modelos de machine learning que utilicen datos textuales, numéricos y de otros tipos.

Más información:

Importación y visualización de datos textuales

Extraiga datos textuales de fuentes tales como redes sociales, canales de noticias, registros de equipos, informes y encuestas.

Extracción de datos textuales

Importe datos textuales a MATLAB® desde archivos individuales o grandes conjuntos de archivos, incluidos archivos PDF, HTML, de Microsoft® Word® y de Excel®.

Extracción de texto de un conjunto de documentos de Microsoft Word.

Visualización de texto

Explore visualmente conjuntos de datos textuales con nubes de palabras y diagramas de dispersión de texto.

Nube de palabras que muestra la frecuencia relativa de las palabras por medio del tamaño y el color de la fuente.

Soporte de idiomas

Text Analytics Toolbox brinda prestaciones de preprocesamiento específicas para los idiomas inglés, japonés, alemán y coreano. La mayoría de las funciones se pueden usar también con texto en otros idiomas.

Importación, preparación y análisis de texto en japonés.

Preprocesamiento de datos textuales

Extraiga palabras significativas de texto sin formato.

Limpieza de datos textuales

Aplique funciones de filtrado de alto nivel para eliminar contenido no pertinente, tales como direcciones URL, etiquetas HTML y puntuación, y corregir la ortografía.

Simplificación de texto sin formato (izquierda) para trabajar con las palabras más significativas (derecha).

Filtrado de palabras irrelevantes y normalización de palabras según su raíz

De prioridad a los datos textuales significativos en el análisis filtrando palabras comunes, palabras que aparecen con mucha o poca frecuencia, y palabras muy largas o muy cortas. Reduzca el vocabulario y céntrese en el sentido o el sentimiento general de un documento convirtiendo palabras a su lexema o lematizándolas según aparecen en un diccionario.

Eliminación de palabras irrelevantes como “a” y “of” de los documentos.

Identificación de tokens, oraciones y categorías gramaticales

Divida automáticamente el texto sin formato en una serie de palabras mediante un algoritmo de tokenización. Agregue límites de oraciones, detalles de categorías gramaticales y otra información relevante al contexto.

Incorporación de detalles sobre oraciones y categorías gramaticales en documentos tokenizados.

Conversión de texto a formato numérico

Convierta datos textuales a formato numérico para su uso en machine learning y deep learning.

Recuento de palabras y n-gramas

Calcule estadísticas sobre la frecuencia de las palabras para representar datos textuales de forma numérica.

Identificación y visualización de palabras más frecuentes en un modelo.

Word embedding y codificación

Entrene modelos de word embedding tales como modelos word2vec de bolsa de palabras continua (CBOW) y modelos skip-gram. Importe modelos previamente entrenados, incluidos fastText y GloVe.

Visualización de clusters en un diagrama de dispersión de texto con word embedding.

Machine learning con datos textuales

Realice modelado de temas, análisis de sentimiento, clasificación, reducción de la dimensionalidad y extracción de resúmenes de documentos con algoritmos de Machine Learning.

Modelado de temas

Descubra y visualice los patrones, las tendencias y las relaciones complejas subyacentes en grandes conjuntos de datos textuales utilizando algoritmos de machine learning tales como asignación de Dirichlet latente (LDA) y análisis semántico latente (LSA).

Identificación de temas en datos de informes sobre tormentas.

Resumen de documentos y extracción de palabras clave

Extraiga el resumen y las palabras clave relevantes de uno o más documentos automáticamente y evalúe la similitud y la importancia de los documentos.

Extracción de resúmenes de texto.

Análisis de sentimiento

Identifique las posturas y opiniones expresadas en datos textuales para categorizar las declaraciones como positivas, neutrales o negativas. Cree modelos que puedan predecir el sentimiento en tiempo real.

Identificación de palabras que predicen un sentimiento positivo y negativo.

Deep learning con datos textuales

Realice análisis de sentimiento, clasificación, resumen y generación de textos mediante algoritmos de Deep Learning.

 

Modelos de transformadores

Aproveche modelos de transformadores como BERT y GPT-2 para realizar transferencia del aprendizaje con datos textuales para análisis de sentimiento, clasificación y resumen.

Modelos de transformadores para transferencia del aprendizaje con datos textuales.

Entrenamiento de una red neuronal profunda para clasificar datos textuales.

Generación de texto usando Orgullo y prejuicio de Jane Austen y una red LSTM de deep learning. 

Recursos adicionales de Text Analytics Toolbox