Text Analytics Toolbox

 

Text Analytics Toolbox

Analice y modele datos textuales

Más información:

Importación y visualización de datos textuales

Extraiga datos textuales de fuentes tales como redes sociales, canales de noticias, registros de equipos, informes y encuestas.

Extracción de datos textuales

Importe datos textuales a MATLAB® desde archivos individuales o grandes conjuntos de archivos, incluidos archivos PDF, HTML, de Microsoft® Word® y de Excel®.

Extracción de texto de un conjunto de documentos de Microsoft Word.

Extracción de texto de un conjunto de documentos de Microsoft Word.

Visualización de texto

Explore visualmente conjuntos de datos textuales con nubes de palabras y diagramas de dispersión de texto.

Nube de palabras que muestra la frecuencia relativa de las palabras por medio del tamaño y el color de la fuente.

Nube de palabras que muestra la frecuencia relativa de las palabras por medio del tamaño y el color de la fuente.

Soporte de idiomas

Text Analytics Toolbox brinda prestaciones de preprocesamiento específicas para los idiomas inglés, japonés, alemán y coreano. La mayoría de las funciones se pueden usar también con texto en otros idiomas.

Importación, preparación y análisis de texto en japonés.

Importación, preparación y análisis de texto en japonés.

Preprocesamiento de datos textuales

Extraiga palabras significativas de texto sin formato.

Limpieza de datos textuales

Aplique funciones de filtrado de alto nivel para eliminar contenido no pertinente, tales como direcciones URL, etiquetas HTML y puntuación, y corregir la ortografía.

Simplificación de texto sin procesar para trabajar con las palabras más significativas.

Utilice la tarea "Preprocess Text Data" de Live Editor para preparar datos de texto para su análisis.

Filtrado de palabras irrelevantes y normalización de palabras según su raíz

De prioridad a los datos textuales significativos en el análisis filtrando palabras comunes, palabras que aparecen con mucha o poca frecuencia, y palabras muy largas o muy cortas. Reduzca el vocabulario y céntrese en el sentido o el sentimiento general de un documento convirtiendo palabras a su lexema o lematizándolas según aparecen en un diccionario.

Eliminación de palabras irrelevantes como “a” y “of” de los documentos.

Eliminación de palabras irrelevantes como “a” y “of” de los documentos.

Extracción de características lingüísticas

Divida automáticamente el texto sin formato en una serie de palabras mediante un algoritmo de tokenización. Agregue límites de oraciones, detalles de categorías gramaticales y otra información relevante al contexto.

Incorporación de detalles sobre oraciones y categorías gramaticales en documentos tokenizados.

Incorporación de detalles sobre oraciones y categorías gramaticales en documentos tokenizados.

Conversión de texto a formato numérico

Convierta datos textuales a formato numérico para su uso en machine learning y deep learning.

Recuento de palabras y n-gramas

Calcule estadísticas sobre la frecuencia de las palabras para representar datos textuales de forma numérica.

Identificación y visualización de palabras más frecuentes en un modelo.

Identificación y visualización de palabras más frecuentes en un modelo.

Word embedding y codificación

Entrene modelos de word embedding tales como modelos word2vec de bolsa de palabras continua (CBOW) y modelos skip-gram. Importe modelos previamente entrenados, incluidos fastText y GloVe.

Visualización de clusters en un diagrama de dispersión de texto con word embedding.

Visualización de clusters en un diagrama de dispersión de texto con word embedding.

Machine learning con datos textuales

Realice modelado de temas, análisis de sentimiento, clasificación, reducción de la dimensionalidad y extracción de resúmenes de documentos con algoritmos de Machine Learning.

Modelado de temas

Descubra y visualice los patrones, las tendencias y las relaciones complejas subyacentes en grandes conjuntos de datos textuales utilizando algoritmos de machine learning tales como asignación de Dirichlet latente (LDA) y análisis semántico latente (LSA).

Identificación de temas en datos de informes sobre tormentas.

Identificación de temas en datos de informes sobre tormentas.

Resumen de documentos y extracción de palabras clave

Extraiga el resumen y las palabras clave relevantes de uno o más documentos automáticamente y evalúe la similitud y la importancia de los documentos.

Extracción de resúmenes de texto.

Extracción de resúmenes de texto.

Análisis de sentimiento

Identifique las posturas y opiniones expresadas en datos textuales para categorizar las declaraciones como positivas, neutrales o negativas. Cree modelos que puedan predecir el sentimiento en tiempo real.

Identificación de palabras que predicen un sentimiento positivo y negativo.

Identificación de palabras que predicen un sentimiento positivo y negativo.

Deep learning con datos textuales

Realice análisis de sentimiento, clasificación, resumen y generación de textos mediante algoritmos de Deep Learning.

 

Modelos de transformadores

Aproveche modelos de transformadores como BERT, FinBERT, y GPT-2 para realizar transferencia del aprendizaje con datos textuales para análisis de sentimiento, clasificación y resumen.

Modelos de transformadores para transferencia del aprendizaje con datos textuales.

Modelos de transformadores para transferencia del aprendizaje con datos textuales.

Entrenamiento de una red neuronal profunda para clasificar datos textuales.

Entrenamiento de una red neuronal profunda para clasificar datos textuales.

Generación de texto usando Orgullo y prejuicio de Jane Austen y una red LSTM de deep learning.

Generación de texto usando Orgullo y prejuicio de Jane Austen y una red LSTM de deep learning.