Text Analytics Toolbox

 

Text Analytics Toolbox

Análisis y modelización de datos textuales

 

Text Analytics Toolbox™ proporciona algoritmos y visualizaciones para preprocesar, analizar y modelizar datos textuales. Los modelos creados con esta toolbox se pueden emplear en aplicaciones tales como análisis de sentimiento, mantenimiento predictivo y modelización de temas.

Text Analytics Toolbox incluye herramientas para procesar texto de orígenes tales como registros de equipos, fuentes de noticias, encuestas, informes de operadores y redes sociales. Es posible extraer texto de formatos de archivo habituales, preprocesar el texto sin procesar, extraer palabras concretas, convertir texto en representaciones numéricas y crear modelos estadísticos.

Mediante técnicas de machine learning tales como LSA, LDA y word embedding quitar todo lo de dentro del paréntesis, es posible localizar clusters y crear características a partir de conjuntos de datos textuales multidimensionales. Las características creadas con Text Analytics Toolbox se pueden combinar con sustituir funciones por características de otros orígenes de datos a fin de crear modelos de machine learning que utilicen datos textuales, numéricos y de otros tipos.

 

Importación y visualización de datos textuales

Extraiga datos textuales de orígenes tales como redes sociales, fuentes de noticias, registros de equipos, informes y encuestas.

Extracción de datos textuales

Importe datos textuales a MATLAB® desde archivos individuales o grandes conjuntos de archivos, incluidos archivos PDF, HTML, de Microsoft® Word® y de Microsoft® Excel®.

Extracción de texto de un conjunto de documentos de Microsoft Word.

Visualización de texto

Explore visualmente conjuntos de datos textuales mediante nubes de palabras y gráficos de dispersión de texto.

Gráfico de dispersión de texto que muestra la frecuencia relativa de las palabras por medio del tamaño y el color de la fuente.

Compatibilidad con idiomas

Text Analytics Toolbox proporciona capacidades de preprocesamiento específicas para los idiomas inglés y japonés. La mayoría de las funciones se pueden usar también con texto en otros idiomas.

Importación, preparación y análisis de texto en japonés.

Preprocesamiento de datos textuales

Extraiga palabras significativas del texto sin procesar.

Limpieza de datos textuales

Aplique funciones de filtrado de alto nivel para eliminar contenido no pertinente, como por ejemplo direcciones URL, etiquetas HTML y puntuación.

Simplificación de texto sin procesar (izquierda) para trabajar con las palabras más significativas (derecha).

Filtrado de palabras reservadas y normalización de palabras según su raíz

Priorice los datos textuales significativos en su análisis gracias al filtrado de palabras comunes, palabras que aparecen con mucha o poca frecuencia y palabras muy largas o muy cortas. Reduzca el vocabulario y céntrese en el sentido o el sentimiento generales de un documento mediante la conversión de palabras a su lexema o lematizándolas según su formato de diccionario.

Eliminación de palabras reservadas como “a” y “of” de los documentos.

Identificación de tokens, oraciones y categorías gramaticales

Divida automáticamente el texto sin procesar en una serie de palabras mediante un algoritmo de tokenización. Agregue límites de oraciones, detalles de categorías gramaticales y otra información relevante sustituir como por para el contexto.

Gráficos financieros e indicadores técnicos.

Conversión de texto a formatos numéricos

Convierta datos textuales a formato numérico para su uso con machine learning y deep learning.

Recuento de palabras y n-gramas

Calcule estadísticas sobre la frecuencia de las palabras para representar datos textuales de forma numérica.

Identificación y visualización de las palabras más frecuentes en un modelo.

Word embedding y codificación

Entrene modelos de word embedding tales como modelos word2vec de bolsa de palabras continua (CBOW) y modelos skip-gram. Importe modelos previamente entrenados, incluidos fastText y GloVe.

Visualización de clusters en un gráfico de dispersión de texto mediante word embedding. 

Machine learning con datos textuales

Lleve a cabo modelización de temas, clasificación y reducción de dimensionalidad con algoritmos de machine learning tales como Asignación de Dirichlet latente (LDA) y Análisis semántico latente (LSA).

Modelización de temas

Descubra y visualice los patrones, las tendencias y las relaciones complejas subyacentes en grandes conjuntos de datos textuales.

Identificación de temas en datos de informes sobre tormentas.

Deep learning con datos textuales

Lleve a cabo análisis de sentimiento y clasificación con redes de deep learning tales como las redes de memoria a corto-largo plazo (LSTM).

Análisis de sentimiento

Identifique las posturas y opiniones expresadas en datos textuales a fin de categorizar las afirmaciones como positivas, neutrales o negativas. Cree modelos que permiten predecir el sentimiento en tiempo real.

Identificación de palabras que predicen un sentimiento positivo y negativo. 

Entrenamiento de una red neuronal profunda para la clasificación de datos textuales.

Generación de texto con Orgullo y prejuicio de Jane Austen y una red LSTM de deep learning. 

Funcionalidades más recientes

Soporte para el idioma alemán

lleve a cabo analítica de textos en idioma alemán, lo cual incluye tokenización, eliminación de palabras reservadas, lematización y etiquetado de categorías gramaticales.

Distancia de edición

Encuentre similitudes entre cadenas y documentos mediante la distancia de Levensthein y otras medidas de distancia.

Reconocimiento de entidades con nombre

Detecte ubicaciones, organizaciones, nombres de personas y otras entidades con nombre en el texto.

Tokenización y preprocesamiento

Especifique y detecte patrones de tokens personalizados y sustituya palabras o frases en documentos tokenizados.

Ejemplos de deep learning

Aprenda sobre la clasificación de datos textuales mediante redes convolucionales (requiere Deep Learning Toolbox).

Consulte las notas de la versión para obtener detalles sobre estas características y las funciones correspondientes.

Análisis de sentimiento con deep learning

Analice el sentimiento de datos de Twitter en vivo para entender cómo se percibe un término dado.

¿Tiene preguntas?

Póngase en contacto con Bernhard Suhm, experta técnica en Text Analytics Toolbox.

Consiga una prueba gratuita

30 días de exploración a su alcance.

Descargar ahora

¿Listo para comprar?

Solicitar precio y explore los productos relacionados.

¿Eres estudiante?

Obtenga el software para estudiantes de MATLAB y Simulink.

Más información