Maestría en IA Aplicada — Proyecto Integrador 2026

Inteligencia Epidemiológica
para México

333 modelos de producción con selección automática entre 4 motores (DeepAR, Prophet, Ensemble, Stacking) optimizados por SMAPE, MASE y RMSE. Pronósticos a 52 semanas con 100% cobertura estatal. Una colaboración entre el Tecnológico de Monterrey y el IMSS.

Modelos Producción

Motores de IA

Padecimientos

Semanas Pronóstico

Explorar Dashboard Interactivo Explorar Pronósticos

Explorar

Acceso Directo

Centro de Reportes

Toda la evidencia, el análisis y las herramientas interactivas del proyecto, en un solo lugar.

Dashboard Interactivo

Tableau interactivo con filtros por padecimiento, estado y sexo. Tooltips con métricas MASE por modelo.

Explorar Dashboard

EPI Chatbot Nuevo

Asistente inteligente con acceso en tiempo real a 333 modelos de producción. Pregúntale sobre métricas, pronósticos, padecimientos, tendencias históricas, el equipo y más. Respuestas instantáneas basadas en datos reales del proyecto.

Hablar con EPI 22 handlers · Fuzzy matching · Gráficas en vivo

Galería de Pronósticos

333 gráficos con filtros, lightbox y búsqueda.

Ver Pronósticos

Resultados del Modelado

MASE, RMSE, ranking interactivo y cobertura.

Ver Resultados

Bitácora del Modelado

Prophet v1 a v6: evolución completa.

Ver Bitácora

Comparación de Modelos

6 algoritmos, 1,548 trials en SageMaker.

Ver Comparación

Ficha Técnica Prophet

Hiperparámetros y arquitectura del modelo.

Ver Ficha

HPs SageMaker

Configuración de los 6 modelos comparados.

Ver HPs

Arquitectura Dashboard

Pipeline de datos para Tableau y visualización.

Ver Arquitectura

Conclusiones

Hallazgos clave y reflexiones del proyecto.

Ver Conclusiones

Validación Semanal

Validación con datos reales de Semana 7/2026 que los modelos nunca vieron.

Ver Validación

Auditoría y Remediación

Auditoría de calidad del código y plan de remediación 2026.

Ver Auditoría

Referencias

43 fuentes bibliográficas organizadas por tema.

Ver Referencias

Contexto del Proyecto

Inteligencia artificial al servicio
de la salud pública mexicana

EpiForecast-MX es un proyecto capstone de la Maestría en Inteligencia Artificial Aplicada del Tecnológico de Monterrey, desarrollado en colaboración directa con el Instituto Mexicano del Seguro Social (IMSS).

El proyecto busca generar pronósticos confiables con intervalos de predicción para tres padecimientos neurológicos y de salud mental — Depresión, Enfermedad de Parkinson y Enfermedad de Alzheimer — a nivel nacional y subnacional (32 entidades federativas), facilitando la planificación estratégica de recursos sanitarios y la toma de decisiones informada.

Utilizamos datos semanales de los boletines epidemiológicos del SINAVE (Sistema Nacional de Vigilancia Epidemiológica) que abarcan el período 2012–2026, incorporando variables previamente no consideradas como género y entidad geográfica para mejorar la capacidad predictiva.

Colaboración Institucional

IMSS

Instituto Mexicano del Seguro Social

Tecnológico de Monterrey

Maestría en IA Aplicada

SINAVE

Fuente de datos epidemiológicos

Padecimientos Objetivo

Tres enfermedades, un pipeline
de pronóstico unificado

El proyecto se enfoca en condiciones neurológicas y de salud mental con alta carga en el sistema de salud mexicano, generando pronósticos desagregados por entidad y sexo.

Depresión

Mayor volumen de casos y mejor predecibilidad. SMAPE mediano del 6.0% y MASE de 0.17 — el pronóstico más preciso del portafolio. DeepAR domina con 108 de 111 modelos. 100% datos suficientes.

CIE-10: F32 · SMAPE 6.0% · MASE 0.17 · RMSE 4.79 · 111 modelos

Parkinson

Escenario desafiante con baja incidencia. SMAPE mediano del 35.2% y MASE de 0.26 — supera baseline naive. Solo 1 modelo regional (Campeche). DeepAR 89, Ensemble 12, Prophet 10.

CIE-10: G20 · SMAPE 35.2% · MASE 0.26 · RMSE 1.00 · 111 modelos

Alzheimer

Ultra-baja incidencia donde un caso de diferencia genera alto SMAPE. MASE de 0.63 — supera baseline naive. Mayor diversidad de motores (DeepAR 47, Prophet 44, Ensemble 18, Stacking 2). 7 modelos regionales.

CIE-10: G30 · SMAPE 107.6% · MASE 0.63 · RMSE 0.78 · 111 modelos

Pipeline de Datos

De PDFs crudos a series de tiempo
listas para modelado

Un flujo reproducible de siete etapas que transforma información no estructurada de boletines epidemiológicos en datasets coherentes para pronóstico multi-step.

Extracción

Procesamiento automatizado de boletines epidemiológicos PDF del SINAVE con extracción de tablas y OCR.

camelot-py OpenCV PDF

EDA

Análisis exploratorio profundo con visualizaciones institucionales, detección de anomalías y validación de la calidad de los datos.

Matplotlib Seaborn Jupyter

Limpieza

Normalización de entidades, corrección de inconsistencias, tratamiento de valores faltantes y estandarización de nomenclaturas.

Pandas NumPy

Transformación

Feature engineering con datos INEGI demográficos, corrimiento de semanas epidemiológicas, conversión acumulados a incrementos, tratamiento IQR de outliers y asignación de regiones.

INEGI IQR ISO-8601

Consolidación

Dataset limpio versionado con DVC y almacenado en S3 — series de tiempo coherentes listas para modelado.

DVC AWS S3 CSV

Modelado Multi-Motor

333 modelos con 4 motores (DeepAR, Prophet, Ensemble, Stacking). Selección automática por SMAPE + MASE + RMSE. Fallback regional para series insuficientes.

DeepAR Prophet Ensemble Stacking

Visualización

Dashboard Tableau interactivo con tooltips de métricas del modelo, gráficos de pronóstico con divisor CV y paleta institucional IMSS.

Tableau Matplotlib Plotly

MLOps y CI/CD

Infraestructura reproducible con Makefile (~55 targets), GitHub Actions con scraping diario automatizado de boletines, versionado de datos con DVC y validación semanal con datos reales.

GitHub Actions Make MLflow

Metodología

De silos aislados a producción
multi-modelo validada

Fase I — Enfoque Monolítico

Modelos aislados por padecimiento con promedios nacionales. Limitado alcance y sin desagregación geográfica ni por sexo. Sirvió como línea base para identificar oportunidades de mejora.

Fase II — Pipeline Unificado

Arquitectura modular con Prophet para pronósticos multi-step. 297 modelos baseline validados con cross-validation temporal. Matriz: 3 padecimientos x 37 combinaciones x 3 sexos.

Fase III — Optimización v5/v6

Grids diferenciados por padecimiento, normalización a tasa por 100K + log-transform, protección anti-Newton (3 capas), modo híbrido con fallback regional, MASE como métrica. De 87% a 100% cobertura estatal.

Fase IV — Multi-Motor (Avance 5)

Incorporación de DeepAR (GluonTS + PyTorch en SageMaker GPU), Ensemble (Prophet + XGBoost) y Stacking (Prophet + ETS + LightGBM + Ridge meta-learner). Selección automática del mejor motor por SMAPE + MASE + RMSE para cada una de las 333 combinaciones.

Fase V — Validación y Producción

Validación semanal con datos reales del boletín SINAVE que los modelos nunca vieron. Auditoría de calidad del código (849 tests), diagnósticos de overfitting y leakage, y tabla de 333 modelos de producción con métricas comparativas.

Innovaciones Clave

Evolución completa desde un prototipo monolítico hasta un sistema multi-modelo validado en producción con 4 motores de IA.

4 motores: DeepAR (GPU), Prophet, Ensemble (Prophet+XGBoost), Stacking (Prophet+ETS+LightGBM+Ridge)

Selección automática por SMAPE primario, MASE como desempate, RMSE como segundo desempate

Modo híbrido: fallback regional para series con datos insuficientes (<5 casos/52 semanas)

Diagnósticos automáticos: detección de overfitting (ratio test/train) y leakage (train SMAPE sospechoso)

Validación semanal con datos reales del boletín que los modelos nunca vieron durante entrenamiento

CI/CD: scraping diario de boletines, 849 tests automatizados, MLflow para tracking de experimentos

Entrega Final — Producción Multi-Modelo

333 modelos optimizados con
4 motores de IA

Selección automática entre DeepAR (244), Prophet (55), Ensemble (32) y Stacking (2) por SMAPE + MASE + RMSE. Cross-validation temporal, fallback regional y pronóstico a 52 semanas con 100% cobertura.

Modelos producción 333

Motores 4 (DeepAR, Prophet, Ensemble, Stacking)

Horizonte 52 semanas

MASE < 1.0 (3/3)

Depresión

F32 · 111 modelos · DeepAR 108, Ensemble 2, Prophet 1

6.0%

SMAPE mediano

0.17

MASE mediano

4.79

RMSE mediano

Insuficientes

Cobertura 100% · 0 fallback

Mejor SMAPE Michoacán · 1.03%

Parkinson

G20 · 111 modelos · DeepAR 89, Ensemble 12, Prophet 10

35.2%

SMAPE mediano

0.26

MASE mediano

1.00

RMSE mediano

Insuficientes

Cobertura 100% · 1 regional

Mejor SMAPE Urbana media · 1.95%

Alzheimer

G30 · 111 modelos · DeepAR 47, Prophet 44, Ensemble 18, Stacking 2

107.6%

SMAPE mediano

0.63

MASE mediano

0.78

RMSE mediano

Insuficientes

Cobertura 100% · 7 regionales

Mejor SMAPE BCS · 0.00%

4 folds

CV temporal con pesos progresivos

MASE < 1

Todos superan baseline naive lag-52

849 tests

Suite de calidad automatizada (70%+ cobertura)

Ver Galería de 333 Pronósticos

Equipo

Un equipo multidisciplinario
uniendo tecnología y salud

Javier Rebull

ML Engineer & Lead Developer

Santander Bank US

Juan Carlos Pérez Nava

EDA, Feature Engineering & Prophet Base

IMSS

Luis Gerardo Sánchez

Dashboard Design & Development

Tesla

Dra. Grettel Barceló Alonso

Asesora Académica — Tec de Monterrey

Dra. Ruth Pérez

Stakeholder IMSS — Epidemiología

Dra. Lina Díaz Castro

Stakeholder IMSS — Investigación

Inteligencia Epidemiológicapara México

Colaboración Institucional

Depresión

Parkinson

Alzheimer

Extracción

EDA

Limpieza

Transformación

Consolidación

Modelado Multi-Motor

Visualización

MLOps y CI/CD

Fase I — Enfoque Monolítico

Fase II — Pipeline Unificado

Fase III — Optimización v5/v6

Fase IV — Multi-Motor (Avance 5)

Fase V — Validación y Producción

Innovaciones Clave

Depresión

Parkinson

Alzheimer

Javier Rebull

Juan Carlos Pérez Nava

Luis Gerardo Sánchez

Dra. Grettel Barceló Alonso

Dra. Ruth Pérez

Dra. Lina Díaz Castro

Inteligencia Epidemiológica
para México