Introducción
Ciencia de Datos para clasificar el estado cívil (Enlace a mi libreta en Jupyter)
El objetivo de este proyecto es poder mostrar un posible flujo de trabajo al estar realizando algún proyecto de ciencia de datos. En particular, en este blog utilizaremos los datos del NHANES 2003-2004 y NHANES 2005-2006, bases de datos generadas en Estados Unidos para análisis clínicos transversales. Estos datos contiene alrededor de 30 variables clínicas (niveles de vitamina d, hormona paratiroidea, etc), y otras 30 variables que describen al paciente (estado cívil, sexo, edad, etc). Estos datos los puedes conseguir aquí, donde también puedes obtener información de cada variable, su obtención, instrumento con el que se mide.
Nuestras variables de interés
Dentro de la base de datos obtenida (de aproximadamente 17 mil datos), estas son nuestras variables más interesantes:
- Sexo (riagendr)
- Indice de masa corporal (bmxbmi)
- Peso (bmxwt)
- Longitud de la cintura (bmxwaist)
- Niveles de vitamina D (lbdvidms)
- Niveles de hormona paratiroidea (lbxpt21)
- Estatura (bmxht)
- Niveles de calcio (dr1tcalc)
- Nivel socio-económico (indhhinc)
- Máximo grado de estudios (indfminc)
Vamos a usar esta información para predecir el estado civil(dmdmartl) de una persona, las cuales pueden ser:
- Casado
- Viudo
- Divorciado
- Separado
- Nunca se ha casado
- En unión libre (Goals)