333 modelos de producción con selección automática entre 4 motores (DeepAR, Prophet, Ensemble, Stacking) optimizados por SMAPE, MASE y RMSE. Pronósticos a 52 semanas con 100% cobertura estatal. Una colaboración entre el Tecnológico de Monterrey y el IMSS.
Toda la evidencia, el análisis y las herramientas interactivas del proyecto, en un solo lugar.
EpiForecast-MX es un proyecto capstone de la Maestría en Inteligencia Artificial Aplicada del Tecnológico de Monterrey, desarrollado en colaboración directa con el Instituto Mexicano del Seguro Social (IMSS).
El proyecto busca generar pronósticos confiables con intervalos de predicción para tres padecimientos neurológicos y de salud mental — Depresión, Enfermedad de Parkinson y Enfermedad de Alzheimer — a nivel nacional y subnacional (32 entidades federativas), facilitando la planificación estratégica de recursos sanitarios y la toma de decisiones informada.
Utilizamos datos semanales de los boletines epidemiológicos del SINAVE (Sistema Nacional de Vigilancia Epidemiológica) que abarcan el período 2012–2026, incorporando variables previamente no consideradas como género y entidad geográfica para mejorar la capacidad predictiva.
Mayor volumen de casos y mejor predecibilidad. SMAPE mediano del 6.0% y MASE de 0.17 — el pronóstico más preciso del portafolio. DeepAR domina con 108 de 111 modelos. 100% datos suficientes.
CIE-10: F32 · SMAPE 6.0% · MASE 0.17 · RMSE 4.79 · 111 modelosEscenario desafiante con baja incidencia. SMAPE mediano del 35.2% y MASE de 0.26 — supera baseline naive. Solo 1 modelo regional (Campeche). DeepAR 89, Ensemble 12, Prophet 10.
CIE-10: G20 · SMAPE 35.2% · MASE 0.26 · RMSE 1.00 · 111 modelosUltra-baja incidencia donde un caso de diferencia genera alto SMAPE. MASE de 0.63 — supera baseline naive. Mayor diversidad de motores (DeepAR 47, Prophet 44, Ensemble 18, Stacking 2). 7 modelos regionales.
CIE-10: G30 · SMAPE 107.6% · MASE 0.63 · RMSE 0.78 · 111 modelosProcesamiento automatizado de boletines epidemiológicos PDF del SINAVE con extracción de tablas y OCR.
Análisis exploratorio profundo con visualizaciones institucionales, detección de anomalías y validación de la calidad de los datos.
Normalización de entidades, corrección de inconsistencias, tratamiento de valores faltantes y estandarización de nomenclaturas.
Feature engineering con datos INEGI demográficos, corrimiento de semanas epidemiológicas, conversión acumulados a incrementos, tratamiento IQR de outliers y asignación de regiones.
Dataset limpio versionado con DVC y almacenado en S3 — series de tiempo coherentes listas para modelado.
333 modelos con 4 motores (DeepAR, Prophet, Ensemble, Stacking). Selección automática por SMAPE + MASE + RMSE. Fallback regional para series insuficientes.
Dashboard Tableau interactivo con tooltips de métricas del modelo, gráficos de pronóstico con divisor CV y paleta institucional IMSS.
Infraestructura reproducible con Makefile (~55 targets), GitHub Actions con scraping diario automatizado de boletines, versionado de datos con DVC y validación semanal con datos reales.
Modelos aislados por padecimiento con promedios nacionales. Limitado alcance y sin desagregación geográfica ni por sexo. Sirvió como línea base para identificar oportunidades de mejora.
Arquitectura modular con Prophet para pronósticos multi-step. 297 modelos baseline validados con cross-validation temporal. Matriz: 3 padecimientos x 37 combinaciones x 3 sexos.
Grids diferenciados por padecimiento, normalización a tasa por 100K + log-transform, protección anti-Newton (3 capas), modo híbrido con fallback regional, MASE como métrica. De 87% a 100% cobertura estatal.
Incorporación de DeepAR (GluonTS + PyTorch en SageMaker GPU), Ensemble (Prophet + XGBoost) y Stacking (Prophet + ETS + LightGBM + Ridge meta-learner). Selección automática del mejor motor por SMAPE + MASE + RMSE para cada una de las 333 combinaciones.
Validación semanal con datos reales del boletín SINAVE que los modelos nunca vieron. Auditoría de calidad del código (849 tests), diagnósticos de overfitting y leakage, y tabla de 333 modelos de producción con métricas comparativas.
Evolución completa desde un prototipo monolítico hasta un sistema multi-modelo validado en producción con 4 motores de IA.
Asesora Académica — Tec de Monterrey
Stakeholder IMSS — Epidemiología
Stakeholder IMSS — Investigación