T1 Algoritmo incremental de agrupamiento con traslape para el procesamiento de grandes colecciones de datos (Overlapping clustering incremental algorithm for large data collections processing) A1 González-Soler, Lázaro Janier A1 Pérez-Suárez, Airel A1 Chang-Fernández, Leonardo K1 Agrupamiento K1 Agrupamiento con traslape K1 Computación en GPU K1 Minería de Datos K1 Clustering K1 Overlapping Clustering K1 GPU Computing K1 Data Mining AB Existen diversos problemas en el Reconocimiento de Patrones y en la Minería de Datos que, por su naturaleza, consideran que los objetos pueden pertenecer a más de una clase o grupo. DClustR es un algoritmo dinámico de agrupamiento con traslape que ha mostrado, en tareas de agrupamiento de documentos, el mejor balance entre calidad de los grupos y eficiencia entre los algoritmos dinámicos de agrupamiento con traslape reportados en la literatura. A pesar de obtener buenos resultados, DClustR puede ser poco útil en aplicaciones que trabajen con grandes colecciones de documentos, debido a que tiene una complejidad computacional  y a la cantidad de memoria que utiliza para el procesamiento de las colecciones. En este trabajo se presenta una versión paralela basada en GPU del algoritmo DClustR, llamada CUDA-DClus, para mejorar la eficiencia de DClustR en aplicaciones que lidien con largas colecciones de documentos. Los experimentos fueron realizados sobre varias colecciones estándares de documentos y en ellos se muestra el buen rendimiento de CUDA-DClus en términos de eficiencia y consumo de memoria.English abstractThere are several problems in Pattern Recognition and Data Mining that, by its inherent nature, consider that the objects can belong to more than a class or cluster. DClustR is a dynamic overlapping clustering algorithm that has shown, in document clustering tasks, the best trade-off between cluster¿s quality and efficiency among existing dynamic overlapping clustering algorithms. However, DClustR could be less useful when working in applications that deal with large data collections, due to its computational complexity and memory demanded for processing them. In this paper, a GPU-based parallel algorithm of DClustR, named CUDA-DClus is suggested to enhance DClustR efficiency in applications dealing with large data collections. The experimental phase conducted over various standard data collections showed that CUDA-Dclus provides good performance in terms of efficiency and memory consumption. PB Universidad Pablo de Olavide SN 2255-5684 YR 2016 FD 2016-09-20 LK http://hdl.handle.net/10433/2767 UL http://hdl.handle.net/10433/2767 LA es NO GECONTEC: Revista Internacional de Gestión del Conocimiento y la Tecnología DS RIO RD Apr 25, 2026