Person:
Pérez Chacón, Rubén

Profesor/a Asociado (LOU)
Loading...
Profile Picture
First Name
Rubén
Last Name
Pérez Chacón
Affiliation
Universidad Pablo de Olavide
Department
Deporte e Informática
Research Center
Area
Lenguajes y Sistemas Informáticos
Research Group
PAIDI Areas
PhD programs
Identifiers
UPO investigaORCIDScopus Author IDDialnet IDGoogle Scholar ID

Search Results

Now showing 1 - 2 of 2
  • Publication
    Desarrollo de modelos basados en patrones para la predicción de series temporales en entornos Big Data
    (2021) Pérez Chacón, Rubén; Troncoso, Alicia; Martínez-Álvarez, Francisco
    Esta Tesis Doctoral se presenta mediante la modalidad de compendio de publicaciones y en ella se aportan distintas contribuciones científicas en Congresos Internacionales y revistas con alto índice de impacto en el Journal of Citation Reports (JCR). Durante los cinco años de investigación a tiempo parcial, se ha realizado una investigación encaminada al estudio, análisis y predicción de grandes conjuntos de series temporales, principalmente de tipo energético. Para ello, se han seguido las últimas tendencias tecnológicas en el ámbito de la computación distribuida, desarrollando la experimentación íntegramente en Scala, el lenguaje nativo del framework Apache Spark, realizando las pruebas experimentales en entornos reales como Amazon Web Services u Open Telekom Cloud. La primera fase de la Tesis Doctoral se centra en el desarrollo y aplicación de una metodología que permite analizar de manera eficiente conjuntos de datos que contienen series temporales de consumo eléctrico, generados por la red de contadores eléctricos inteligentes instalados en la Universidad Pablo de Olavide. La metodología propuesta se enfoca principalmente en la correcta aplicación en entornos distribuidos del algoritmo de clustering K-means a grandes conjuntos de datos, permitiendo segmentar conjuntos de $n$ observaciones en $k$ grupos distintos con características similares. Esta tarea se realiza utilizando una versión paralelizada del algoritmo llamado K-means++, incluido en la Machine Learning Library de Apache Spark. Para la elección del número óptimo de clusters, se adopta una estrategia en la que se evalúan distintos índices de validación de clusters tales como el Within Set Sum of Squared Error, Davies-Bouldin, Dunn y Silhouette, todos ellos desarrollados para su aplicación en entornos distribuidos. Los resultados de esta experimentación se expusieron en 13th International Conference on Distributed Computing and Artificial Intelligence. Posteriormente, se amplió la experimentación y la metodología, resultando en un artículo publicado en la revista Energies, indexada en JCR con categoría Q3. La segunda parte del trabajo realizado consiste en el diseño de una metodología y desarrollo de un algoritmo capaz de pronosticar eficazmente series temporales en entornos Big Data. Para ello, se analizó el conocido algoritmo Pattern Sequence-based Forecasting (PSF), con dos objetivos principales: por un lado, su adaptación para aplicarlo en entornos escalables y distribuidos y, por otro lado, la mejora de las predicciones que realiza, enfocándolo a la explotación de grandes conjuntos de datos de una manera eficiente. En este sentido, se ha desarrollado en lenguaje Scala un algoritmo llamado bigPSF, que se integra en el marco de una completa metodología diseñada para a pronosticar el consumo energético de una Smart City. Finalmente, se desarrolló una variante del algoritmo bigPSF llamada MV-bigPSF, capaz de predecir series temporales multivariables. Esta experimentación se ha plasmado en dos artículos científicos publicados en las revistas Information Sciences (para el artículo relativo al algoritmo bigPSF) y Applied Energy (relativo al estudio de la versión multivariable del mismo), ambas con un índice de impacto JCR con categoría Q1.
  • Publication
    Pattern sequence-based algorithm for multivariate big data time series forecasting: Application to electricity consumption
    (Elsevier, 2024-01-22) Pérez Chacón, Rubén; Asencio Cortés, Gualberto; Martínez-Álvarez, Francisco; Troncoso, Alicia
    Several interrelated variables typically characterize real-world processes, and a time series cannot be predicted without considering the influence that other time series might have on the target time series. This work proposes a novel algorithm to forecast multivariate big data time series. This new general-purpose approach consists first of a previous pattern recognition performed jointly using all time series that form the multivariate time series and then predicts the target time series by searching for similarities between pattern sequences. The proposed algorithm is designed to tackle multivariate time series forecasting problems within the context of big data. In particular, the algorithm has been developed with a distributed nature to enhance its efficiency in analyzing and processing large volumes of data. Moreover, the algorithm is straightforward to use, with only two parameters needing adjustment. Another advantage of the MV-bigPSF algorithm is its ability to perform multi-step forecasting, which is particularly useful in many practical applications. To evaluate the algorithm’s performance, real-world data from Uruguay’s power consumption has been utilized. Specifically, MV-bigPSF has been compared with both univariate and multivariate methods. Regarding the univariate ones, MV-bigPSF improved 12.8% in MAPE compared to the second-best method. Regarding the multivariate comparison, MV-bigPSF improved 44.8% in MAPE with respect to the second most accurate method. Regarding efficiency, the execution time of MV-bigPSF was 1.83 times faster than the second-fastest multivariate method, both in a single-core environment. Therefore, the proposed algorithm can be a valuable tool for practitioners and researchers working in multivariate time series forecasting, particularly in big data applications.