Como entrenar y validar un modelo de machine learnig

🎧 Escucha el podcast de esta publicación
Estrategia de modelado
Contar con una estrategia de modelado correcta es esencial para desarrollar y validar modelos de predicción. En este artículo, exploraremos las siete etapas clave del proceso de modelado propuesto por Ewout Steyerberg en su artículo .
1. Definición del problema e inspección de datos
El primer paso en cualquier proyecto de modelado es definir claramente el problema de investigación y seleccionar la variable de resultado adecuada.
Durante esta fase, también realizamos un análisis exploratorio de datos (EDA) para comprender las características de las variables y detectar posibles problemas, como datos atípicos o valores faltantes.
# Instalación y Carga de Librerías
library(caret)
## Loading required package: ggplot2
## Loading required package: lattice
library(MLDataR) # para utilizar la biblioteca diabetes_data
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(dlookr) # para EDA
## Registered S3 methods overwritten by 'dlookr':
## method from
## plot.transform scales
## print.transform scales
## Because it is an offline environment, only offline fonts are imported.
##
## Attaching package: 'dlookr'
## The following object is masked from 'package:base':
##
## transform
library(predtools)
# Cargar el conjunto de datos
data("gusto")
gusto <- gusto
# EDA
descripcion <- overview(gusto)
summary(descripcion) # descripción general del conjunto de datos
## ── Data Scale ──────────────────────────────────────────────
## • Number of observations : 40,830
## • Number of variables : 29
## • Number of values : 1,184,070
## • Size of located memory(bytes) : 5,241,552
##
## ── Duplicated Data ─────────────────────────────────────────
## • Number of duplicated observations : 4 (0.01%)
##
## ── Missing Data ────────────────────────────────────────────
## • Number of completed observations : 30,510
## • Number of observations with NA : 10,320 (25.28%)
## • Number of variables with NA : 1
## • Number of NA : 10,320
##
## ── Data Type ───────────────────────────────────────────────
## • Number of numeric variables : 1
## • Number of integer variables : 13
## • Number of factors variables : 0
## • Number of character variables : 0
## • Number of Date variables : 0
## • Number of POSIXct variables : 0
## • Number of other variables : 15
##
## ── Individual variables ────────────────────────────────────
## Variables Data Type
## 1 day30 integer
## 2 sho integer
## 3 hig integer
## 4 dia labelled
## 5 hyp integer
## 6 hrt integer
## 7 ttr labelled
## 8 sex labelled
## 9 Killip labelled
## 10 age numeric
## 11 ste labelled
## 12 pulse labelled
## 13 sysbp labelled
## 14 ant integer
## 15 miloc labelled
## 16 height labelled
## 17 weight labelled
## 18 pmi labelled
## 19 htn labelled
## 20 smk labelled
## 21 pan integer
## 22 fam labelled
## 23 prevcvd integer
## 24 prevcabg integer
## 25 regl integer
## 26 grpl integer
## 27 grps integer
## 28 tpa integer
## 29 tx labelled
Para conocer más detalles sobre el proceso de ¨Exploratory Data Analysis (EDA)¨ ver la publicación dedicada a este tema.
2. Codificación de las Variables Predictoras
La codificación adecuada de las variables predictoras es fundamental para construir modelos robustos. En este estudio, se utilizaron técnicas como la agrupación de categorías poco frecuentes y la creación de predictores resúmenes para simplificar información correlacionada. Además, cuando las relaciones entre variables no son lineales, aplicamos herramientas como splines cúbicos restringidos , que permiten capturar patrones complejos sin comprometer la precisión del modelo.
3 .Especificación del Tipo de Modelo
La elección del modelo depende del tipo de relación que queremos capturar entre las variables. En este estudio, combinamos dos enfoques: regresión logística binaria múltiple y árboles de clasificación . Mientras que la regresión logística es ideal para modelar relaciones lineales y proporcionar probabilidades, los árboles de clasificación son útiles para identificar interacciones complejas y establecer indicadores de riesgo.
Un aspecto clave fue la selección de predictores finales, que se basó en criterios como la plausibilidad biológica , el respaldo de la literatura científica y métodos computacionales avanzados. Esto nos permitió evitar el uso exclusivo de valores p, que pueden ser engañosos en algunos contextos.
4. Estimación del Modelo
Para ajustar los parámetros del modelo, utilizamos el método de máxima verosimilitud (MLE) , reconocido por su versatilidad y eficiencia computacional. Además, evaluamos cuidadosamente las interacciones entre variables predictoras, incluyéndolas solo cuando había evidencia empírica y teórica que respaldaba su relevancia. Un modelo más simple suele ser más robusto y fácil de interpretar, lo que es crucial en entornos clínicos.
5. Evaluación del Rendimiento del Modelo
El rendimiento del modelo se evalúa mediante métricas como calibración y discriminación . La calibración mide la concordancia entre las predicciones y los resultados observados, mientras que la discriminación evalúa la capacidad del modelo para distinguir entre pacientes con diferentes resultados. Herramientas como las rectas de calibración y la validación cruzada de 10 pliegues fueron fundamentales para asegurar la calidad del modelo.
6. Evaluación de la Validez del Modelo
La validación del modelo es un paso crítico para garantizar su aplicabilidad en diferentes contextos. En este estudio, utilizamos tanto validación interna como externa , empleando particiones temporales y geográficas para reflejar escenarios reales. Este enfoque nos permitió evaluar la robustez del modelo frente a cambios en el tiempo y variaciones regionales.
7. Presentación del Modelo
La presentación del modelo puede ser a través de un nomograma o aplicación.
Bibliografía
- Steyerberg EW, Vergouwe Y. Towards better clinical prediction models: seven steps for development and an ABCD for validation. European Heart Journal [Internet]. 1 de agosto de 2014 [citado 9 de mayo de 2021];35(29):1925-31. Disponible en: https://academic.oup.com/eurheartj/article-lookup/doi/10.1093/eurheartj/ehu207