En este tema vamos a centrar el objeto de nuestro estudio, dar una definición de en qué consiste el Aprendizaje Automático, y revisar los principales conceptos que vamos a manejar a lo largo del curso.
El AA es un subcampo de la IA.
A su vez, el Aprendizaje Profundo es un subcampo del AA.
Decimos que un algoritmo aprende a partir de la experiencia E con respecto a un tipo de tarea T y una medida de rendimiento P, si su rendimiento al realizar la tarea T, medido usando P, mejora con la experiencia E.
En la definición anterior podemos identificar la experiencia como el conjunto de datos a partir del cuál se quiere el rendimiento al realizar la tarea.
A este conjunto de datos los llamaremos conjunto de datos de entrenamiento.
El conjunto de datos de entrenamiento que se proporciona al algoritmo contiene el resultado esperado para cada una de las muestras.
Por ejemplo, si queremos entrenar un algoritmo para que reconozca dígitos, mi conjunto de entrenamiento debe tener imágenes de dígitos, y cada imagen una etiqueta correspondiente al dígito que representa.
Las tareas más comunes dentro de este tipo aprendizaje son:
El conjunto de datos de entrenamiento que se proporciona al algoritmo NO contiene el resultado esperado para cada una de las muestras.
Por ejemplo, tenemos una base de datos de clientes y queremos agruparlos basándonos en el gasto medio que hacen por compra y el número de compras que hacen al año. Agrupar usando únicamente estas características nos puede mostrar que entre nuestros clientes hay un grupo de personas que realiza compras compulsiva (muchas compras anuales de pequeño coste), y personas «metódicas» que hacen pocas compras anuales pero de gran coste.
Las tareas más comunes dentro de este tipo de aprendizaje son:
En nuestro conjunto de datos de entrenamiento tenemos algunas muestras etiquetadas, pero otra muchas no tiene etiqueta.
Por ejemplo, detectar transacciones bancarias fraudulentas. Usualmente, en número de transacciones etiquetadas suele ser pequeño. Un procedimiento para asignar etiquetas a las transacciones no etiquetadas puede realizar un agrupamiento de todo el conjunto de datos, y después asignar etiquetas a las transacciones que no tienen etiqueta según la etiqueta mayoritaria del conjunto en el que han sido clasificadas.
La resolución de un problema se realiza mediante ensayo y error.
Cada ensayo tiene una recompensa, que puede ser positiva o negativa. La combinación de ensayo y recompensa condiciona el siguiente ensayo a tomar.
La utilidad de los modelos de AA es que nos permitan trabajar con nuevos datos.
Un modelo de regresión es útil porque nos da valores buenos para nuevos datos con los que no ha sido entrenado.
Un modelo de clasificación es útil porque nos permite clasificar nuevos datos con los que no ha sido entrenado.
A este poder de los modelos de AA lo llamamos generalización.
Un problema que puede aparecer cuando entrenamos un modelo de AA es que no generalice cuando se aplica a nuevos datos porque es demasiado limitado o pobre.
Entonces decimos que el modelo subajusta los datos.
Por el contrario, a veces forzamos el modelo en la fase de entrenamiento para que ajuste muy bien los datos de entrenamiento, lo que a veces implica que el modelo entrenado no funcione tan bien con nuevos datos.
Entonces el modelo sobreajusta los datos.
Una vez construido un modelo de aprendizaje automático, debemos medir su desempeño sobre un conjunto de datos de prueba. Este conjunto de datos no ha formado parte del entrenamiento.
Si el problema es de regresión, las métricas más utilizadas son:
\[ MSE = \frac{1}{N}\sum_{n=1}^N (y_n - \hat{y}_n)^2 \]
\[ MAE = \frac{1}{N} \sum_{n=1}^N |y_n - \hat{y}_n| \]
Si el problema es de clasificación, usualmente se presentan los resultados con forma de matriz de confusión:
\[ Precisión = \frac{TP + TN}{P + N} \\ Sensitividad = \frac{TP}{P} \\ Especifidad = \frac{TN}{N} \\ F1 = 2\frac{sentividad \cdot especifidad}{sensitividad + especifidad} \]
Otra métrica menos utilizada pero bastante informativa en clasificación binaria es el Área Bajo la Curva (AUC - Area Under the Curve).
La idea básica de la clasificación binaria es establecer de algún modo una ordenación de los datos según algún criterio. El segundo paso es establecer un umbral dentro de la ordenación, de tal modo que las muestras que superen ese umbral se clasifican como positivas, y las que no, se clasifican como negativas.
Aprendizaje Automático (IR2130) - Óscar Belmonte Fernández