Cree modelos lingüísticos multipalabra y analícelos con Machine Learning

Un n-gramas es un conjunto de n elementos consecutivos en un documento de texto, que puede incluir palabras, números, símbolos y puntuación. Los modelos de n-gramas son útiles en muchas aplicaciones de análisis textual en que la secuencia de palabras es relevante, tales como análisis de sentimiento, clasificación de texto y generación de texto. Por ejemplo, en la siguiente oración:

"Text Analytics Toolbox permite crear nubes de palabras a partir de arrays de cadenas, temas LDA y nubes de palabras a partir de modelos de bolsas de palabras".

En este ejemplo, “temas LDA” es un 2-grama (bigrama), “arrays de cadenas” es un 3-grama (trigrama) y “modelos de bolsas de palabras” es un 5-grama. El tamaño del n-gramas depende de la aplicación y del tamaño de las frases frecuentes utilizadas en esa aplicación.

El modelado de n-gramas es una de las técnicas utilizadas para convertir texto de un formato no estructurado a un formato estructurado. Una alternativa al n-gramas es el uso de técnicas de word embedding, como word2vec. Se puede crear un modelo lingüístico que incorpore n-gramas contando la cantidad de veces que cada n-gramas único aparece en un documento. Esto se conoce como modelo de bolsa de n-gramas. En el ejemplo anterior, el modelo de bolsa de n-gramas para n=2 tendría este aspecto:

n-gramas Cantidad
Nubes de palabras 2
Arrays de cadenas 1
Modelos de bolsa de palabras 1

Una vez creado, el modelo lingüístico se puede utilizar con algoritmos de Machine Learning para crear modelos predictivos para aplicaciones de análisis textual. Para obtener más información sobre los n-gramas y la creación de modelos con datos textuales, consulte Text Analytics Toolbox™ con MATLAB®.



También puede consultar estos temas: procesamiento de lenguaje natural, análisis de sentimiento, word2vec, minería de textos con MATLAB, Data Science, Deep Learning, Deep Learning Toolbox™, Predictive Maintenance Toolbox™