n-gramas

Cree modelos lingüísticos multipalabra y analícelos con Machine Learning

Un n-grama es un conjunto de n elementos consecutivos en un documento de texto, que puede incluir palabras, números, símbolos y puntuación. Los modelos de n-gramas son útiles en muchas aplicaciones de análisis de texto en que la secuencia de palabras es pertinente, tales como análisis de sentimiento, clasificación de texto y generación de texto. El modelado de n-gramas es una de las técnicas utilizadas para convertir texto de un formato no estructurado a un formato estructurado. Una alternativa al n-grama es el uso de técnicas de word embedding, como word2vec.

Ejemplo

Se puede crear un modelo lingüístico que incorpore n-gramas contando la cantidad de veces que cada n-grama único aparece en un documento. Esto se conoce como modelo de bolsa de n-gramas. En MATLAB, se puede crear un modelo de bolsa de n-gramas utilizando una función “bagOfNgrams”

 Nube de palabras de n-gramas donde n=2. Esta nube de palabras muestra las palabras más relevantes en naranja, como “robot arm” (brazo robótico) y “construct agent” (agente de construcción), y una serie de palabras menos relevantes en negro que las rodean y tienen un tamaño menor.

Nube de palabras de n-gramas con n=2 (bigramas).

Una vez creado, el modelo lingüístico se puede utilizar con algoritmos de Machine Learning para crear modelos predictivos para aplicaciones de análisis textual. Para obtener más información sobre los n-gramas y la creación de modelos con datos textuales, consulte Text Analytics Toolbox™ con MATLAB®.



También puede consultar estos temas: procesamiento de lenguaje natural, análisis de sentimiento, word2vec, minería de textos con MATLAB, Data Science, Deep Learning, Deep Learning Toolbox™, Predictive Maintenance Toolbox™