Page 20 - Reto 3
P. 20
20
ETAPA TIEMPO
Seleccionar tema 1 semana
Obtener datos abiertos para desarrollo de visualizaciones 2 semanas
Preparar datos para desarrollo de visualizaciones de datos (ETL) 2 semanas
Seleccionar y desarrollar visualizaciones de datos 2 semanas
Desarrollar cuestionario de medición de conocimiento 1 semana
Aplicación de cuestionario y visualización de datos 2 semanas
Análisis y presentación de resultados 1 semana
Tabla 5. Plan de proyecto
6.2.3 Identificación de las preguntas importantes del negocio
En este caso la prueba de concepto no está orientada a un negocio, pero lo que se pretende
responder con esta es si las visualizaciones de datos desarrolladas son capaces de incrementar el
conocimiento de sus usuarios.
El factor de éxito de la prueba es si la calificación promedio del segundo cuestionario es mayor a la
calificación promedio del primer cuestionario empleando diferentes tipos de visualizaciones.
6.2.4 Elección del conjunto de datos
El conjunto de datos seleccionado para la prueba de concepto son datos abiertos del gobierno de
México (en formato .XML) y de Oilbmex (Tablas en la Web), relacionados con el precio del
combustible en el país y del precio del barril del petróleo.
Los datos presentan información de estaciones de servicio, marca, estado de la república, tipo de
combustible, fecha de apertura, y precio en una fecha determinada.
Los datos registran 33 entidades federativas, la gasolina se clasifica en 3 tipos: “Gasolina mínimo 87
octanos”, “Gasolina mínimo 91 octanos” y Diésel. El periodo de datos inicia a partir del mes de enero
del año 2018 al mes de enero 2019. El precio representa el promedio por litro en moneda nacional
que se utiliza por cada Entidad.
Para complementar la información se extraen datos históricos del precio de barril (WTI, BRENT y
MME) a partir del año 2018 a Enero del 2019.
6.2.5 Transformación del conjunto de datos
Los archivos obtenidos de la pagina de datos abiertos del gobierno de México se encuentran
originalmente en formato XML, se convierten en formato CSV utilizando la herramienta gratuita
Advanced XML Converter.
A la base de datos se le incluye información adicional como la latitud y longitud de acuerdo al estado
de la república en el que se encuentra la estación de servicio.
Así mismo se eliminaron registros con valores null.
En algunos casos es necesario procesar información en Microsoft Excel a través del uso de tablas
dinámicas que permitan cargar la información en la herramienta de visualización de datos.
6.2.6 Verificación del conjunto de datos
Durante el proceso de verificación de datos se identificó que los datos son un muestreo del precio
de combustible en diferentes estaciones de servicio, es decir, los datos no muestran un padrón del