T1 Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos (Overlapping clustering incremental algorithm for large data collections processing)
A1 González-Soler, Lázaro Janier
A1 Pérez-Suárez, Airel
A1 Chang-Fernández, Leonardo
K1 Agrupamiento
K1 Agrupamiento con traslape
K1 Computación en GPU
K1 Minería de Datos
K1 Clustering
K1 Overlapping Clustering
K1 GPU Computing
K1 Data Mining
AB Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documentos, el mejor balance entre calidad de los grupos y eficiencia entre los algoritmos dinámicos de agrupamiento con traslape reportados en la literatura. A pesar de obtener buenos resultados, DClustR puede ser poco útil en aplicaciones que trabajen con grandes colecciones de documentos, debido a que tiene una complejidad computacional  y a la cantidad de memoria que utiliza para el procesamiento de las colecciones. En este trabajo se presenta una versión paralela basada en GPU del algoritmo DClustR, llamada CUDA-DClus, para mejorar la eficiencia de DClustR en aplicaciones que lidien con largas colecciones de documentos. Los experimentos fueron realizados sobre varias colecciones estándares de documentos y en ellos se muestra el buen rendimiento de CUDA-DClus en términos de eficiencia y consumo de memoria.English abstractThere are several problems in Pattern Recognition and Data Mining that, by its inherent nature, consider that the objects can belong to more than a class or cluster. DClustR is a dynamic overlapping clustering algorithm that has shown, in document clustering tasks, the best trade-off between cluster¿s quality and efficiency among existing dynamic overlapping clustering algorithms. However, DClustR could be less useful when working in applications that deal with large data collections, due to its computational complexity and memory demanded for processing them. In this paper, a GPU-based parallel algorithm of DClustR, named CUDA-DClus is suggested to enhance DClustR efficiency in applications dealing with large data collections. The experimental phase conducted over various standard data collections showed that CUDA-Dclus provides good performance in terms of efficiency and memory consumption.
PB Universidad Pablo de Olavide
SN 2255-5684
YR 2016
FD 2016-09-20
LK http://hdl.handle.net/10433/2767
UL http://hdl.handle.net/10433/2767
LA es
NO GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología
DS RIO
RD Jul 31, 2026