Publication:
Técnicas de predicción escalables para big data temporales

dc.contributor.advisorTroncoso, Alicia
dc.contributor.advisorMartínez-Álvarez, Francisco
dc.contributor.authorGalicia de Castro, Antonio
dc.date.accessioned2019-10-21T09:27:01Z
dc.date.available2019-10-21T09:27:01Z
dc.date.issued2019
dc.date.submitted2019-03-22
dc.descriptionPrograma de Doctorado en Biotecnología, Ingeniería y Tecnología Químicaes_ES
dc.descriptionLínea de Investigación: Ingeniería Informática
dc.descriptionClave Programa: DBI
dc.descriptionCódigo Línea: 19
dc.description.abstractEn esta Tesis se presenta una metodología para pronosticar series temporales de gran longitud basada en el framework de computación distribuida Apache Spark y su librería MLlib para Machine Learning. La predicción de los h valores futuros se realiza dividiendo el problema de predicción en h subproblemas de predicción, uno para cada valor del horizonte. Esto nos permite resolver en paralelo todos los subproblemas, asegurando la escalabilidad de la metodología. Además, se propone un ensemble que nos permite predecir h valores futuros, mediante la combinación de los resultados de k modelos generados en base a distintos algoritmos. De forma concreta, se han utilizado las implementaciones de los algoritmos Decision Tree, Gradient-Boosted Trees y Random Forest que ofrece la librería MLlib de Spark. Se consideran dos estrategias, un modelo de ensemble estático y un modelo dinámico que actualiza los pesos para mejorar el modelo de predicción. Los pesos del ensemble se calculan con el método de mínimos cuadrados ponderados, y las predicciones para cada modelo que forma el ensemble se obtienen de forma distribuida. El comportamiento de los modelos se evalúa con dos casos de uso: el consumo eléctrico en España, en el que se genera un modelo para predecir las siguientes 4 horas de la serie temporal, partiendo de un histórico de 10 años de registros con una frecuencia de 10 minutos; y datos de producción de energía solar fotovoltaica de Australia, recogidos por la Universidad de Queensland durante dos años, con una frecuencia de 30 minutos entre las mediciones. Los resultados han mostrado que tanto los ensemble dinámicos como los estáticos se comportaron bien, mejorando los resultados de cualquiera de los algoritmos que componen el ensemble. El ensemble dinámico fue el modelo más preciso cometiendo un error relativo medio del 2% en la predicción de la demanda de energía eléctrica de España, resultado muy prometedor para esta serie temporal. Los resultados obtenidos para la predicción de producción de energía solar fotovoltaica se han comparado, además, con redes neurales artificiales, el algoritmo PSF el cual está basado en secuencia de patrones y con Deep Learning, obteniendo las mejores predicciones en esta serie temporal.es_ES
dc.description.sponsorshipUniversidad Pablo de Olavide de Sevilla. Departamento de Deporte e Informáticaes_ES
dc.description.versionPostprintes_ES
dc.format.mimetypeapplication/pdf
dc.identifier.urihttp://hdl.handle.net/10433/6887
dc.language.isoeses_ES
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.accessRightsopen accesses_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectBig dataes_ES
dc.subjectConsumo eléctricoes_ES
dc.subjectEnergía solares_ES
dc.titleTécnicas de predicción escalables para big data temporaleses_ES
dc.typedoctoral thesises_ES
dspace.entity.typePublication
relation.isAdvisorOfPublication5dfece1b-990d-4744-b597-0bdc0fd52e2b
relation.isAdvisorOfPublication26bf4f66-a7bd-460f-aba1-234cab99b9e0
relation.isAdvisorOfPublication.latestForDiscovery5dfece1b-990d-4744-b597-0bdc0fd52e2b

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
galicia-castro-tesis-18-19.pdf
Size:
4.5 MB
Format:
Adobe Portable Document Format
Description:

Collections