Text Analytics Toolbox

Analice y modele datos textuales

 

Text Analytics Toolbox™ proporciona algoritmos y visualizaciones para preprocesar, analizar y modelar datos textuales. Los modelos creados con esta toolbox se pueden emplear en aplicaciones tales como análisis de sentimiento, mantenimiento predictivo y modelado de temas.

Text Analytics Toolbox incluye herramientas para procesar texto sin formato de fuentes tales como registros de equipos, canales de noticias, encuestas, informes de operadores y redes sociales. Puede extraer texto de formatos de archivo conocidos, preprocesar el texto sin formato, extraer palabras concretas, convertir texto en representaciones numéricas y crear modelos estadísticos.

Mediante técnicas de machine learning tales como LSA, LDA y word embedding, es posible localizar clusters y crear características a partir de conjuntos de datos textuales multidimensionales. Las características creadas con Text Analytics Toolbox se pueden combinar con características de otros orígenes de datos para crear modelos de machine learning que utilicen datos textuales, numéricos y de otros tipos.

Comience:

Importación y visualización de datos textuales

Extraiga datos textuales de fuentes tales como redes sociales, canales de noticias, registros de equipos, informes y encuestas.

Extracción de datos textuales

Importe datos textuales a MATLAB® desde archivos individuales o grandes conjuntos de archivos, incluidos archivos PDF, HTML, de Microsoft® Word® y de Excel®.

Extracción de texto de un conjunto de documentos de Microsoft Word.

Visualización de texto

Explore visualmente conjuntos de datos textuales con nubes de palabras y diagramas de dispersión de texto.

Diagrama de dispersión de texto que muestra la frecuencia relativa de las palabras por medio del tamaño y el color de la fuente.

Soporte de idiomas

Text Analytics Toolbox brinda prestaciones de preprocesamiento específicas para los idiomas inglés, japonés, alemán y coreano. La mayoría de las funciones se pueden usar también con texto en otros idiomas.

Importación, preparación y análisis de texto en japonés.

Preprocesamiento de datos textuales

Extraiga palabras significativas de texto sin formato.

Limpieza de datos textuales

Aplique funciones de filtrado de alto nivel para eliminar contenido no pertinente, tales como direcciones URL, etiquetas HTML y puntuación, y corregir la ortografía.

Simplificación de texto sin formato (izquierda) para trabajar con las palabras más significativas (derecha).

Filtrado de palabras irrelevantes y normalización de palabras según su raíz

De prioridad a los datos textuales significativos en el análisis filtrando palabras comunes, palabras que aparecen con mucha o poca frecuencia, y palabras muy largas o muy cortas. Reduzca el vocabulario y céntrese en el sentido o el sentimiento general de un documento convirtiendo palabras a su lexema o lematizándolas según aparecen en un diccionario.

Eliminación de palabras irrelevantes como “a” y “of” de los documentos.

Identificación de tokens, oraciones y categorías gramaticales

Divida automáticamente el texto sin formato en una serie de palabras mediante un algoritmo de tokenización. Agregue límites de oraciones, detalles de categorías gramaticales y otra información relevante al contexto.

Gráficas financieras e indicadores técnicos.

Conversión de texto a formato numérico

Convierta datos textuales a formato numérico para su uso en machine learning y deep learning.

Recuento de palabras y n-gramas

Calcule estadísticas sobre la frecuencia de las palabras para representar datos textuales de forma numérica.

Identificación y visualización de palabras más frecuentes en un modelo.

Word embedding y codificación

Entrene modelos de word embedding tales como modelos word2vec de bolsa de palabras continua (CBOW) y modelos skip-gram. Importe modelos previamente entrenados, incluidos fastText y GloVe.

Visualización de clusters en un diagrama de dispersión de texto con word embedding.

Machine learning con datos textuales

Realice modelado de temas, clasificación, reducción de dimensionalidad y extracción de resumen de documentos utilizando algoritmos de machine learning.

Modelado de temas

Descubra y visualice los patrones, las tendencias y las relaciones complejas subyacentes en grandes conjuntos de datos textuales utilizando algoritmos de machine learning tales como asignación de Dirichlet latente (LDA) y análisis semántico latente (LSA).

Identificación de temas en datos de informes sobre tormentas.

Resumen de documentos y extracción de palabras clave

Extraiga el resumen y las palabras clave relevantes de uno o más documentos automáticamente y evalúe la similitud y la importancia de los documentos.

Extracción de resúmenes de texto.

Deep learning con datos textuales

Realice análisis y clasificación de sentimientos con redes de deep learning tales como las redes de memoria de corto-largo plazo (LSTM).

Análisis de sentimiento

Identifique las posturas y opiniones expresadas en datos textuales para categorizar los enunciados como positivas, neutrales o negativas. Cree modelos que permiten predecir el sentimiento en tiempo real.

Identificación de palabras que predicen un sentimiento positivo y negativo. 

Entrenamiento de una red neuronal profunda para clasificar datos textuales.

Generación de texto usando Orgullo y prejuicio de Jane Austen y una red LSTM de deep learning. 

Nuevas funcionalidades

Extracción de palabras clave

Extraiga palabras clave que describan un documento adecuadamente usando los algoritmos RAKE y TextRank.

Consulte las notas de la versión para obtener detalles sobre estas funcionalidades y las funciones correspondientes.

Análisis de sentimiento con deep learning

Analice el sentimiento de datos de Twitter en tiempo real para entender cómo se percibe un término dado.

Recursos adicionales para Text Analytics Toolbox