Abstract

Este estudio pretende proponer una solución al problema de identificar el sentimiento de comentarios en español, debido a las variaciones idiomáticas existentes en los diversos países Latinoamericanos, plasmados en redes sociales usando como ejemplo el contexto político de una provincia de Argentina. Para lograrlo, se utilizó una combinación de un algoritmo de aprendizaje no supervisado, para hacer la pseudo clasificación, con un algoritmo de aprendizaje supervisado, para el modelo de clasificación. Los resultados muestran que el nivel de precisión obtenido es 93%, lo cual es mayor que los niveles de precisión encontrados en estudios previos. Entre las contribuciones del estudio podemos resaltar la necesidad de incluir una capa de pre-procesamiento, para corregir faltas ortográficas y reducir la vectorización al generar un clasificador con mayor precisión; y un proceso de pseudo-clasificación, como alternativa de clasificar de forma manual miles de comentarios para lograr un dataset para entrenamiento de un clasificador. This study aims to propose a solution to the problem of identifying the feeling of comments in Spanish, due to the linguistic variations existing in the different Latin American countries, expressed in social networks using as an example a political context of an Argentinian Province. To achieve this, a combination of an unsupervised machine-learning algorithm was used to do the pseudo classification, with a supervised machine-learning algorithm, for the classification model. The results show that the level of accuracy obtained is 93%, which is higher than the levels of accuracy found in previous studies. Among the contributions of the study, we can highlight the need to include a layer of pre-processing, to correct spelling errors and reduce vectorization by generating a classifier with greater precision; and a pseudo-classification process, as an alternative to manually classifying thousands of comments to achieve a dataset for training a classifier.

Share

COinS
 

Identificación del sentimiento expresado usando redes sociales en un contexto político

Este estudio pretende proponer una solución al problema de identificar el sentimiento de comentarios en español, debido a las variaciones idiomáticas existentes en los diversos países Latinoamericanos, plasmados en redes sociales usando como ejemplo el contexto político de una provincia de Argentina. Para lograrlo, se utilizó una combinación de un algoritmo de aprendizaje no supervisado, para hacer la pseudo clasificación, con un algoritmo de aprendizaje supervisado, para el modelo de clasificación. Los resultados muestran que el nivel de precisión obtenido es 93%, lo cual es mayor que los niveles de precisión encontrados en estudios previos. Entre las contribuciones del estudio podemos resaltar la necesidad de incluir una capa de pre-procesamiento, para corregir faltas ortográficas y reducir la vectorización al generar un clasificador con mayor precisión; y un proceso de pseudo-clasificación, como alternativa de clasificar de forma manual miles de comentarios para lograr un dataset para entrenamiento de un clasificador. This study aims to propose a solution to the problem of identifying the feeling of comments in Spanish, due to the linguistic variations existing in the different Latin American countries, expressed in social networks using as an example a political context of an Argentinian Province. To achieve this, a combination of an unsupervised machine-learning algorithm was used to do the pseudo classification, with a supervised machine-learning algorithm, for the classification model. The results show that the level of accuracy obtained is 93%, which is higher than the levels of accuracy found in previous studies. Among the contributions of the study, we can highlight the need to include a layer of pre-processing, to correct spelling errors and reduce vectorization by generating a classifier with greater precision; and a pseudo-classification process, as an alternative to manually classifying thousands of comments to achieve a dataset for training a classifier.