Práctica de Regresión Logística

Autor

Óscar Belmonte Fernández

1 Introducción

En esta práctica vas a utilizar el algoritmo de Regresión Logística para clasificar tumores como benignos o malignos.

El modelo deberá predecir si un tumor es benigno o maligno a partir de ciertas características.

Los datos los puedes descargar desde el github de la asignatura.

Vas a crear un libro de notas de Python para desarrollar la práctica. Este libro lo debes subir a aulavirtual para su evaluación.

2 Duración de la práctica

A esta práctica le vamos a dedicar dos sesiones de prácticas.

3 Objetivos de aprendizaje

  • Emplear el algoritmo de Regresión Logística para realizar tareas de clasificación.
  • Estimar el rendimiento de la Regresión Logística para el conjunto de datos proporcionado.
  • Decidir cuál es el mejor conjunto de características para construir el clasificador.
  • Argumentar las decisiones realizadas.

4 Metodología

Vas a seguir una adaptación de los pasos que has visto en la presentación de teoría Proyectos de Aprendizaje Automático.

  1. Definir el problema y tener una imagen del conjunto.
  2. Obtener los datos.
  3. Explorar los datos para conocerlos mejor.
  4. Preparar los datos para que muestren los patrones.
  5. Crear un primera versión del modelo.
  6. Ajustar el modelo para obtener una solución.
  7. Presentar la solución.
  8. Crítica del trabajo y posibles mejoras.

5 Objetivo

Utilizar la regresión logística para clasificar un tumor como benigno o maligno a partir de un conjunto de características.

6 Tareas a realizar

Vas a seguir una adaptación del esquema que se presentó en el tema de Proyectos de Aprendizaje Automático.

6.1 Definir el problema y tener un imagen del conjunto

Describe, con tus propias palabras cuál es el problema que se pretende resolver y cuál es su alcance.

6.2 Obtener los datos

Los datos los puedes descargar desde el github de la asignatura.

Esta es la descripción de las cada una de las características de los datos:

  • ID: Código de identificación (puede que no sea único).
  • V1: Grosor de los lóbulos.
  • V2: Uniformidad del tamaño celular.
  • V3: Uniformidad de la forma celular.
  • V4: Adhesión marginal.
  • V5: Tamaño de la célula epitelial única.
  • V6: Núcleos desnudos (faltan 16 valores).
  • V7: Cromatina lisa.
  • V8: Nucleolos normales.
  • V9: Mitosis.
  • clase: “benigno” o “maligno”.

Revisa y limpia los datos si es necesario.

6.3 Explorar los datos para conocerlos mejor

Realiza un análisis exploratorio de los datos, para ello, visualiza tus datos, haz un análisis estadístico de ellos y extrae conclusiones.

6.4 Preparar lo datos para que muestren los patrones

A parir de los resultados del apartado anterior, prepara los datos para resaltar los posibles patrones en ellos.

6.5 Crear una primera versión del modelo

Con la información que has conseguido del análisis realizado, crea un primera versión de un regresor logístico y estima cuál es su precisión (accuracy).

6.6 Ajustar el modelo para obtener una solución

Con la información que has conseguido del análisis realizado, crea un primera versión de un regresor logístico que utilice una única característica. ¿Qué característica vas a utilizar? ¿Por qué has elegido esa característica?

Amplia el número de características a dos. ¿Cuál es la segunda característica que has seleccionado? ¿Por qué la has seleccionado? ¿Han mejorado los resultados? ¿Cuanto han mejorado?

Siguen ampliando el número de características justificando el orden de inclusión. ¿Cómo mejoran los resultados al ir añadiendo nuevas características?

Haz una análisis detallado de todas las conclusiones que has extraído.

6.7 Presentar la solución

Presenta los principales conclusiones y respalda cada conclusión con los análisis que has realizado.

6.8 Critica del trabajo y posibles mejoras

A la luz de todos los resultados que has obtenido, ¿cómo podrías seguir mejorando tu modelo?

7 Entrega

El trabajo que debes entregar para su corrección es el libro de notas (fichero con extensión ipynb).

Súbelo a aulavirtual. No es necesario que los suban todos los miembros del equipo, basta con que lo suba uno de vosotros.