Publication:
Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos (Overlapping clustering incremental algorithm for large data collections processing)

Loading...
Thumbnail Image
Publication date
2016-09-20
Reading date
Event date
Start date of the public exhibition period
End date of the public exhibition period
Advisors
Authors of photography
Person who provides the photography
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Pablo de Olavide
Export
Research Projects
Organizational Units
Journal Issue
Abstract
Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documentos, el mejor balance entre calidad de los grupos y eficiencia entre los algoritmos dinámicos de agrupamiento con traslape reportados en la literatura. A pesar de obtener buenos resultados, DClustR puede ser poco útil en aplicaciones que trabajen con grandes colecciones de documentos, debido a que tiene una complejidad computacional  y a la cantidad de memoria que utiliza para el procesamiento de las colecciones. En este trabajo se presenta una versión paralela basada en GPU del algoritmo DClustR, llamada CUDA-DClus, para mejorar la eficiencia de DClustR en aplicaciones que lidien con largas colecciones de documentos. Los experimentos fueron realizados sobre varias colecciones estándares de documentos y en ellos se muestra el buen rendimiento de CUDA-DClus en términos de eficiencia y consumo de memoria.English abstractThere are several problems in Pattern Recognition and Data Mining that, by its inherent nature, consider that the objects can belong to more than a class or cluster. DClustR is a dynamic overlapping clustering algorithm that has shown, in document clustering tasks, the best trade-off between cluster¿s quality and efficiency among existing dynamic overlapping clustering algorithms. However, DClustR could be less useful when working in applications that deal with large data collections, due to its computational complexity and memory demanded for processing them. In this paper, a GPU-based parallel algorithm of DClustR, named CUDA-DClus is suggested to enhance DClustR efficiency in applications dealing with large data collections. The experimental phase conducted over various standard data collections showed that CUDA-Dclus provides good performance in terms of efficiency and memory consumption.
Doctoral program
Related publication
Research projects
Description
Bibliographic reference
GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología
Photography rights