Introducción y contexto energético nacional
México enfrenta una tensión energética de carácter estructural. Mientras la producción de combustibles refinados de PEMEX ha caído casi un 48% desde el año 2004, el parque vehicular registrado en el país supera los 60 millones de unidades activas y continúa en crecimiento sostenido.
Esta divergencia entre capacidad productiva y demanda interna indica que el abastecimiento nacional de gasolina y diésel ya no puede cubrirse exclusivamente con producción propia, generando una dependencia estructural creciente de importaciones energéticas. Sin embargo, la velocidad a la que se alcanzará un punto crítico de insuficiencia no ha sido cuantificada con precisión mediante modelos predictivos.
"La ausencia de modelos predictivos que estimen ese horizonte compromete la planificación de política energética nacional y la transición hacia fuentes alternativas."
Este proyecto responde a esa necesidad. Mediante técnicas de ciencia de datos aplicadas a series históricas de PEMEX e INEGI/SEMARNAT, se construye un sistema analítico que cruza ambas trayectorias y estima el año en que la brecha alcanzará niveles críticos para la soberanía energética del país.
Relevancia en el marco de la Agenda 2030
El análisis se alinea directamente con cuatro Objetivos de Desarrollo Sostenible de la ONU, reconociendo que la dependencia energética tiene implicaciones económicas, sociales y climáticas que trascienden el sector petrolero.
Objetivo del proyecto
Desarrollar un sistema analítico de análisis predictivo que evalúe la evolución de la producción de combustibles refinados frente al crecimiento del parque vehicular en México, estimando el horizonte temporal hacia una dependencia estructural de importaciones energéticas, con el fin de apoyar la toma de decisiones en política energética nacional.
Cuantificar la brecha
Calcular la diferencia entre producción de refinados y demanda vehicular estimada para cada año del periodo histórico 2004–2024.
Proyectar tendencias
Construir modelos de regresión polinomial que permitan extrapolar ambas curvas con intervalos de confianza al periodo 2025–2035.
Estimar el punto crítico
Identificar el año en que la demanda vehicular proyectada supera la capacidad de producción nacional, según distintos escenarios de crecimiento.
Metodología y procesamiento de datos
El proceso metodológico integra cuatro etapas claramente delimitadas: recopilación de fuentes primarias, limpieza y estructuración, análisis exploratorio y modelado predictivo. Toda la cadena de procesamiento se implementó en Python con las bibliotecas pandas, NumPy, y herramientas de visualización.
Limpieza de datos PEMEX
El archivo original presenta un formato de series horizontales con fechas tipo
Ene/1990
como encabezados de columna. El código detecta automáticamente la fila de fechas
(más de 50 valores de ese tipo en una misma línea) y extrae las filas de los
cuatro productos objetivo, transformando la estructura horizontal a un formato
vertical normalizado (producto · fecha · valor).
Los valores faltantes marcados como N/D
se reemplazan por el promedio de la serie de cada producto, garantizando continuidad
sin distorsionar las tendencias estructurales.
# Detección de fila de fechas for linea in lineas: campos = [limpiar_texto(x) for x in linea.split(",")] fechas_detectadas = [x for x in campos if es_fecha_pemex(x)] if len(fechas_detectadas) > 50: fila_fechas = fechas_detectadas break # Conversión horizontal → vertical df_largo = df.melt( id_vars="Producto", var_name="Fecha", value_name="Valor" )
Limpieza de datos vehiculares
El archivo Excel de INEGI/SEMARNAT requiere localización dinámica del inicio
de datos buscando el valor 1980
en la primera columna, ya que las filas previas contienen metadatos y notas
que varían según la versión del archivo. Se asignan nombres estandarizados a
las seis columnas relevantes y se eliminan separadores de miles (comas) antes
de la conversión numérica.
Modelo predictivo
Se construyeron modelos de regresión polinomial independientes para cada variable (producción y demanda). El grado del polinomio se seleccionó minimizando el error cuadrático medio en validación cruzada. Las proyecciones se extienden al periodo 2025–2035 con bandas de confianza para tres escenarios: crecimiento conservador, tendencia histórica y escenario acelerado.
Recopilación
Descarga de series históricas PEMEX (CSV) e INEGI/SEMARNAT (XLS). Periodo: 1980–2024 para vehículos; 1990–2024 para combustibles.
Limpieza y estructuración
Detección automática de encabezados, normalización de formatos de fecha, imputación de valores faltantes, conversión a formato vertical.
Análisis exploratorio
Identificación de tendencias, valores atípicos y puntos de quiebre estructural en ambas series mediante estadística descriptiva y visualizaciones.
Modelado predictivo
Regresión polinomial con selección de grado óptimo. Proyección 2025–2035 con tres escenarios y bandas de confianza.
Cruce de curvas
Detección computacional del año en que la curva de demanda supera la de producción bajo cada escenario modelado.
Visualización
Dashboard interactivo para explorar escenarios según distintas tasas de crecimiento y ritmos de declive productivo.
Resultados y proyecciones
El análisis cruzado de ambas series revela una trayectoria de convergencia que apunta a un punto crítico dentro del horizonte de proyección. A continuación se presenta la visualización de las tendencias históricas y las proyecciones 2025–2035.
Interpretación de resultados
El modelo de regresión polinomial ajustado a la serie de producción PEMEX captura con precisión la tendencia de declive iniciada en 2004, mostrando una aceleración en los últimos cinco años del periodo histórico. La serie vehicular, en contraste, exhibe crecimiento sostenido con elasticidad reducida en periodos de contracción económica (2008–2009 y 2020).
El cruce proyectado de ambas curvas —punto en que la demanda supera la producción nacional— se estima dentro de la ventana 2028–2032 bajo el escenario de tendencia histórica, y puede adelantarse a 2026–2027 bajo el escenario de crecimiento vehicular acelerado.
Estos resultados ponen de manifiesto la urgencia de diversificar la matriz energética y reforzar la capacidad de refinación nacional, ya sea mediante inversión en infraestructura o mediante transición acelerada hacia vehículos eléctricos que reduzcan la demanda estructural de combustibles líquidos.
Conclusiones
Este proyecto demuestra cómo la ingeniería de datos transforma información dispersa en conocimiento estratégico accionable, con implicaciones directas para la planificación energética nacional.
- C1 La brecha entre producción de refinados PEMEX y demanda vehicular nacional es real, cuantificable y tiene una trayectoria de convergencia acelerada. El punto crítico se estima dentro del horizonte 2028–2032 bajo el escenario de tendencia histórica.
- C2 La preparación y limpieza de datos es una etapa indispensable del análisis. Los archivos originales de PEMEX e INEGI contienen inconsistencias de formato, valores faltantes y estructuras no estándar que requieren tratamiento sistemático antes de cualquier modelado.
- C3 Los modelos de regresión polinomial ofrecen una aproximación robusta para proyectar series económicas de mediano plazo cuando se dispone de datos históricos suficientes y la tendencia estructural es identificable.
- C4 El sistema desarrollado convierte el análisis en una herramienta de política pública, alineada con los ODS 7, 8, 13 y 17, y contribuye a la planificación de una transición energética justa y cuantitativa para México.
- C5 La metodología es replicable y extensible: puede incorporarse nueva información de producción, ajustarse los parámetros de escenario o integrarse con datos de emisiones y electrificación del parque vehicular para análisis de mayor profundidad.
Equipo e institución
Ariel López Miranda
Modelado predictivo, análisis exploratorio y construcción del pipeline de datos vehiculares INEGI/SEMARNAT.
Asael Rodríguez León
Limpieza y estructuración de datos PEMEX, desarrollo del parser de series históricas y validación del modelo.
Universidad Politécnica de Querétaro · Ingeniería de Datos · IDIA224
Dr. Cesar Isaza Bohorquez · Profesor titular · UPQ