Sistema para la Minería de Opiniones

  1. Daniela Elizabeth Sanjinés Flores 1
  2. Vivian F. López Batista 1
  3. Ana B. Gil-González 1
  1. 1 Departamento de Informática y Automática, Facultad de Ciencias, Salamanca
Livre:
Avances en Informática y Automática. Duodécimo Workshop
  1. André Sales Mendes (coord.)

Éditorial: Universidad de Salamanca

ISBN: 978-84-09-10312-6

Année de publication: 2020

Pages: 97-109

Type: Chapitre d'ouvrage

Résumé

Las empresas comerciales y de servicios entre otros sectores, requieren que la gran cantidad de opiniones que se generan en la web por los usuarios pueda ser extraída de forma automática, obteniendo la polaridad de la opinión de sus clientes sobre sus productos o servicios para alcanzar sus objetivos. Sin embargo, debido a que las opiniones de la web son subjetivas y no estructuradas, aún existen problemas no solucionados dentro de la minería de opiniones, como son los problemas de ambigüedad y soporte de idiomas, que afectan a la hora de realizar la correcta clasificación de las opiniones. Se propone un sistema de minería de opiniones que determine la polaridad positiva y negativa para el idioma español, tratando de detectar la ironía como problema de ambigüedad. Se diseñó un modelo con dos enfoques, el primero utilizando la herramienta Natural Language Toolkit (NLTK) para el preprocesamiento de datos y utilizando unigramas y bigramas como características. El segundo enfoque utilizando la herramienta TreeTagger para el preprocesamiento de datos y aplicando el resultado lema/categoría gramatical como características. Se implementó el método de aprendizaje supervisado con el algoritmo Naive Bayes para su múltiple clasificación. La evaluación de los resultados con las métricas de accurancy, recall, presicion y F-1 score con puntuaciones por debajo de los 0.70. La importancia de los resultados demuestran que la detección de ironía en Español utilizando las técnicas clásicas de la minería de opiniones no son tan eficientes, aunque se deben mejorar dos problemas fundamentales como son la cantidad de datos, el idioma y la calidad del etiquetado.