n-gramas

Introducción a los n-gramas

Un n-grama es un conjunto de n elementos consecutivos en un documento de texto, que puede incluir palabras, números, símbolos y puntuación. Los modelos de n-gramas son útiles en muchas aplicaciones de análisis de texto en que la secuencia de palabras es pertinente, tales como análisis de sentimiento, clasificación de texto y generación de texto. El modelado de n-gramas es una de las técnicas utilizadas para convertir texto de un formato no estructurado a un formato estructurado. Una alternativa al n-grama es el uso de técnicas de word embedding, como word2vec.

Ejemplo

Se puede crear un modelo lingüístico que incorpore n-gramas contando la cantidad de veces que cada n-grama único aparece en un documento. Esto se conoce como modelo de bolsa de n-gramas. En MATLAB, se puede crear un modelo de bolsa de n-gramas utilizando una función “bagOfNgrams”

Nube de palabras de n-gramas donde n=2. Esta nube de palabras muestra las palabras más relevantes en naranja, como “robot arm” (brazo robótico) y “construct agent” (agente de construcción), y una serie de palabras menos relevantes en negro que las rodean y tienen un tamaño menor. — Nube de palabras de n-gramas con n=2 (bigramas).

Una vez creado, el modelo lingüístico se puede utilizar con algoritmos de Machine Learning para crear modelos predictivos para aplicaciones de análisis textual. Para obtener más información sobre los n-gramas y la creación de modelos con datos textuales, consulte Text Analytics Toolbox™ con MATLAB^®.

Ejemplos y procedimientos

Análisis de datos textuales usando frases multipalabra - Ejemplo
Análisis de sentimiento en textos - Ejemplo
Clasificación de datos textuales con una red neuronal convolucional - Ejemplo
Análisis de texto con MATLAB (23:35) - Vídeo

Referencias de software

bagOfNgrams: modelo de bolsa de n-gramas - Función
topkngrams: n-gramas más frecuentes - Función
removeNgrams: elimina n-gramas de un modelo de bolsa de n-gramas - Función
replaceNgrams: sustituye n-gramas en documentos - Función
context: busca instancias de palabras o n-gramas en contexto, en documentos - Función
join: combina varios modelos de bolsa de palabras o bolsa de n-gramas - Función
encode: codifica documentos como una matriz de cantidad de palabras o n-gramas - Función

También puede consultar estos temas: procesamiento de lenguaje natural, análisis de sentimiento, word2vec, minería de textos con MATLAB, Deep Learning Toolbox™, Predictive Maintenance Toolbox™

Introducción al análisis de texto en MATLAB

Prueba gratuita

Pruebe MATLAB, Simulink y otros productos.

Comience ahora