Maestría en IA Aplicada — Proyecto Integrador 2026

Inteligencia Epidemiológica
para México

333 modelos de producción con selección automática entre 4 motores (DeepAR, Prophet, Ensemble, Stacking) optimizados por SMAPE, MASE y RMSE. Pronósticos a 52 semanas con 100% cobertura estatal. Una colaboración entre el Tecnológico de Monterrey y el IMSS.

0
Modelos Producción
0
Motores de IA
0
Padecimientos
0
Semanas Pronóstico
Explorar Dashboard Interactivo Explorar Pronósticos
Explorar
Centro de Reportes

Toda la evidencia, el análisis y las herramientas interactivas del proyecto, en un solo lugar.

EPI Chatbot
EPI Chatbot Nuevo

Asistente inteligente con acceso en tiempo real a 333 modelos de producción. Pregúntale sobre métricas, pronósticos, padecimientos, tendencias históricas, el equipo y más. Respuestas instantáneas basadas en datos reales del proyecto.

Hablar con EPI 22 handlers · Fuzzy matching · Gráficas en vivo
Galería de Pronósticos
333 gráficos con filtros, lightbox y búsqueda.
Ver Pronósticos
Resultados del Modelado
MASE, RMSE, ranking interactivo y cobertura.
Ver Resultados
Bitácora del Modelado
Prophet v1 a v6: evolución completa.
Ver Bitácora
Comparación de Modelos
6 algoritmos, 1,548 trials en SageMaker.
Ver Comparación
Ficha Técnica Prophet
Hiperparámetros y arquitectura del modelo.
Ver Ficha
HPs SageMaker
Configuración de los 6 modelos comparados.
Ver HPs
Arquitectura Dashboard
Pipeline de datos para Tableau y visualización.
Ver Arquitectura
Conclusiones
Hallazgos clave y reflexiones del proyecto.
Ver Conclusiones
Validación Semanal
Validación con datos reales de Semana 7/2026 que los modelos nunca vieron.
Ver Validación
Auditoría y Remediación
Auditoría de calidad del código y plan de remediación 2026.
Ver Auditoría
Referencias
43 fuentes bibliográficas organizadas por tema.
Ver Referencias
Inteligencia artificial al servicio
de la salud pública mexicana

EpiForecast-MX es un proyecto capstone de la Maestría en Inteligencia Artificial Aplicada del Tecnológico de Monterrey, desarrollado en colaboración directa con el Instituto Mexicano del Seguro Social (IMSS).

El proyecto busca generar pronósticos confiables con intervalos de predicción para tres padecimientos neurológicos y de salud mental — Depresión, Enfermedad de Parkinson y Enfermedad de Alzheimer — a nivel nacional y subnacional (32 entidades federativas), facilitando la planificación estratégica de recursos sanitarios y la toma de decisiones informada.

Utilizamos datos semanales de los boletines epidemiológicos del SINAVE (Sistema Nacional de Vigilancia Epidemiológica) que abarcan el período 2012–2026, incorporando variables previamente no consideradas como género y entidad geográfica para mejorar la capacidad predictiva.

Colaboración Institucional

IMSS
Instituto Mexicano del Seguro Social
Tecnológico de Monterrey
Maestría en IA Aplicada
SINAVE
Fuente de datos epidemiológicos
Padecimientos Objetivo
Tres enfermedades, un pipeline
de pronóstico unificado
El proyecto se enfoca en condiciones neurológicas y de salud mental con alta carga en el sistema de salud mexicano, generando pronósticos desagregados por entidad y sexo.

Depresión

Mayor volumen de casos y mejor predecibilidad. SMAPE mediano del 6.0% y MASE de 0.17 — el pronóstico más preciso del portafolio. DeepAR domina con 108 de 111 modelos. 100% datos suficientes.

CIE-10: F32 · SMAPE 6.0% · MASE 0.17 · RMSE 4.79 · 111 modelos

Parkinson

Escenario desafiante con baja incidencia. SMAPE mediano del 35.2% y MASE de 0.26 — supera baseline naive. Solo 1 modelo regional (Campeche). DeepAR 89, Ensemble 12, Prophet 10.

CIE-10: G20 · SMAPE 35.2% · MASE 0.26 · RMSE 1.00 · 111 modelos

Alzheimer

Ultra-baja incidencia donde un caso de diferencia genera alto SMAPE. MASE de 0.63 — supera baseline naive. Mayor diversidad de motores (DeepAR 47, Prophet 44, Ensemble 18, Stacking 2). 7 modelos regionales.

CIE-10: G30 · SMAPE 107.6% · MASE 0.63 · RMSE 0.78 · 111 modelos
De PDFs crudos a series de tiempo
listas para modelado
Un flujo reproducible de siete etapas que transforma información no estructurada de boletines epidemiológicos en datasets coherentes para pronóstico multi-step.
01

Extracción

Procesamiento automatizado de boletines epidemiológicos PDF del SINAVE con extracción de tablas y OCR.

camelot-py OpenCV PDF
02

EDA

Análisis exploratorio profundo con visualizaciones institucionales, detección de anomalías y validación de la calidad de los datos.

Matplotlib Seaborn Jupyter
03

Limpieza

Normalización de entidades, corrección de inconsistencias, tratamiento de valores faltantes y estandarización de nomenclaturas.

Pandas NumPy
04

Transformación

Feature engineering con datos INEGI demográficos, corrimiento de semanas epidemiológicas, conversión acumulados a incrementos, tratamiento IQR de outliers y asignación de regiones.

INEGI IQR ISO-8601
05

Consolidación

Dataset limpio versionado con DVC y almacenado en S3 — series de tiempo coherentes listas para modelado.

DVC AWS S3 CSV
06

Modelado Multi-Motor

333 modelos con 4 motores (DeepAR, Prophet, Ensemble, Stacking). Selección automática por SMAPE + MASE + RMSE. Fallback regional para series insuficientes.

DeepAR Prophet Ensemble Stacking
07

Visualización

Dashboard Tableau interactivo con tooltips de métricas del modelo, gráficos de pronóstico con divisor CV y paleta institucional IMSS.

Tableau Matplotlib Plotly
08

MLOps y CI/CD

Infraestructura reproducible con Makefile (~55 targets), GitHub Actions con scraping diario automatizado de boletines, versionado de datos con DVC y validación semanal con datos reales.

GitHub Actions Make MLflow
Metodología
De silos aislados a producción
multi-modelo validada

Fase I — Enfoque Monolítico

Modelos aislados por padecimiento con promedios nacionales. Limitado alcance y sin desagregación geográfica ni por sexo. Sirvió como línea base para identificar oportunidades de mejora.

Fase II — Pipeline Unificado

Arquitectura modular con Prophet para pronósticos multi-step. 297 modelos baseline validados con cross-validation temporal. Matriz: 3 padecimientos x 37 combinaciones x 3 sexos.

Fase III — Optimización v5/v6

Grids diferenciados por padecimiento, normalización a tasa por 100K + log-transform, protección anti-Newton (3 capas), modo híbrido con fallback regional, MASE como métrica. De 87% a 100% cobertura estatal.

Fase IV — Multi-Motor (Avance 5)

Incorporación de DeepAR (GluonTS + PyTorch en SageMaker GPU), Ensemble (Prophet + XGBoost) y Stacking (Prophet + ETS + LightGBM + Ridge meta-learner). Selección automática del mejor motor por SMAPE + MASE + RMSE para cada una de las 333 combinaciones.

Fase V — Validación y Producción

Validación semanal con datos reales del boletín SINAVE que los modelos nunca vieron. Auditoría de calidad del código (849 tests), diagnósticos de overfitting y leakage, y tabla de 333 modelos de producción con métricas comparativas.

Innovaciones Clave

Evolución completa desde un prototipo monolítico hasta un sistema multi-modelo validado en producción con 4 motores de IA.

4 motores: DeepAR (GPU), Prophet, Ensemble (Prophet+XGBoost), Stacking (Prophet+ETS+LightGBM+Ridge)
Selección automática por SMAPE primario, MASE como desempate, RMSE como segundo desempate
Modo híbrido: fallback regional para series con datos insuficientes (<5 casos/52 semanas)
Diagnósticos automáticos: detección de overfitting (ratio test/train) y leakage (train SMAPE sospechoso)
Validación semanal con datos reales del boletín que los modelos nunca vieron durante entrenamiento
CI/CD: scraping diario de boletines, 849 tests automatizados, MLflow para tracking de experimentos
333 modelos optimizados con
4 motores de IA
Selección automática entre DeepAR (244), Prophet (55), Ensemble (32) y Stacking (2) por SMAPE + MASE + RMSE. Cross-validation temporal, fallback regional y pronóstico a 52 semanas con 100% cobertura.
Modelos producción 333
Motores 4 (DeepAR, Prophet, Ensemble, Stacking)
Horizonte 52 semanas
MASE < 1.0 (3/3)

Depresión

F32 · 111 modelos · DeepAR 108, Ensemble 2, Prophet 1
6.0%
SMAPE mediano
0.17
MASE mediano
4.79
RMSE mediano
0
Insuficientes
Cobertura 100% · 0 fallback
Mejor SMAPE Michoacán · 1.03%

Parkinson

G20 · 111 modelos · DeepAR 89, Ensemble 12, Prophet 10
35.2%
SMAPE mediano
0.26
MASE mediano
1.00
RMSE mediano
1
Insuficientes
Cobertura 100% · 1 regional
Mejor SMAPE Urbana media · 1.95%

Alzheimer

G30 · 111 modelos · DeepAR 47, Prophet 44, Ensemble 18, Stacking 2
107.6%
SMAPE mediano
0.63
MASE mediano
0.78
RMSE mediano
7
Insuficientes
Cobertura 100% · 7 regionales
Mejor SMAPE BCS · 0.00%
4 folds
CV temporal con pesos progresivos
MASE < 1
Todos superan baseline naive lag-52
849 tests
Suite de calidad automatizada (70%+ cobertura)
Un equipo multidisciplinario
uniendo tecnología y salud
Javier Rebull

Javier Rebull

ML Engineer & Lead Developer
Santander Bank US
Juan Carlos Pérez Nava

Juan Carlos Pérez Nava

EDA, Feature Engineering & Prophet Base
IMSS
Luis Gerardo Sánchez

Luis Gerardo Sánchez

Dashboard Design & Development
Tesla
Dra. Grettel Barceló Alonso

Asesora Académica — Tec de Monterrey

Dra. Ruth Pérez

Stakeholder IMSS — Epidemiología

Dra. Lina Díaz Castro

Stakeholder IMSS — Investigación

Stack Tecnológico
Herramientas que potencian
el proyecto
Python 3.12
Prophet
DeepAR / GluonTS
PyTorch
XGBoost
LightGBM
scikit-learn
statsmodels
AWS SageMaker
AWS S3
DVC
MLflow
Pandas
NumPy
OmegaConf
Matplotlib
Seaborn
Plotly
Rich
Tableau Public
Git / GitHub
GitHub Actions
Makefile
camelot-py
Claude Code
LaTeX
Netlify
Un dataset robusto para
decisiones informadas
0
Registros totales
Dataset consolidado SINAVE + INEGI
2012–2026
Período cubierto
13+ años de boletines SINAVE
0
Entidades federativas
Cobertura nacional completa
0
Modelos Producción
4 motores: DeepAR 244, Prophet 55, Ensemble 32, Stacking 2