•  
  •  
 
RELCASI

DOI

10.17705/1relc.00083

Abstract

In this work, Machine Learning algorithms combined with several forms of vector representation word embedding were analyzed in order to verify the performance of classifiers in the search and retrieval of information in the domain of Patent documents. The World Intellectual Property Organization (WIPO) documents were selected using a methodology based on the centroids of the classes. Eight classifiers combined with four vector representations of the document were compared. The best performance was 83.36% accuracy, a promising result compared to others available in the literature. An analysis of the words in each class was performed based on the tf-idf measure.

En este trabajo se analizaron algoritmos de Machine Learning combinados con varias formas de incrustación de palabras de representación vectorial con el fin de verificar el desempeño de los clasificadores en la búsqueda y recuperación de información en el dominio de los documentos de Patentes. Los documentos de la World Intellectual Property Organization (WIPO) fueron seleccionados utilizando una metodología basada en los centroides de las clases. Se compararon ocho clasificadores combinados con cuatro representaciones vectoriales del documento. El mejor desempeño fue el 83,36% de precisión, un resultado prometedor en comparación con otros disponibles en la literatura. Se realizó un análisis de las palabras de cada clase en base a la medida tf-idf.

Neste trabalho, algoritmos de Aprendizado de Máquina combinados com várias formas de representação vetorial word embedding foram analisados com o objetivo de verificar o desempenho dos classificadores na busca e recuperação de informação no domínio de documentos de Patentes. Documentos da World Intellectual Property Organization (WIPO) foram selecionados usando a uma metodologia baseada nos centroides das classes. Foram analisados e comparados oito classificadores com quatro representações vetoriais. O melhor desempenho obteve acurácia de 83,36%, um resultado promissor comparado com outros disponíveis na literatura para esse domínio. Uma análise das palavras em cada classe foi realizada usando a medida tf-idf.

Share

COinS