Page 29 - Revista 2018 ultima
P. 29
Revista de la Facultad de Ingeniería, Año 5, Número 1
Contabilizando los resultados totales se puede construir lo que se conoce como la
matriz de confusión, donde la primera fila tiene los resultados positivos; separados
por Verdaderos y Falsos; y la segunda fila contiene los resultados negativos
igualmente separados en Verdaderos y Falsos. A continuación se presenta el
ejemplo de la matriz de confusión:
Valor Predicho
= + = −
Valor = + TP = 753 FP = 25
Real
= − FN = 43 TN = 433
Tabla 2: Matriz de confusión
Estas cuatro variables definen una gran variedad de indicadores, capaces de analizar
la calidad del algoritmo desde distintos puntos de vista. Recordemos que existen al
menos cuatro grandes proveedores de soluciones de Machine Learning (Microsoft,
Amazon, IBM y Google), todos ellos proveen de estas variables y los indicadores que
definiremos a continuación, como métricas de performance del resultado del
algoritmo a la hora de ejecutar el test de datos.
Errores de Clasificación (Misclassification error)
Cuando no es importante diferenciar las clasificaciones incorrectas y no es necesario
tomar en consideración que uno de los dos tipos de Falsos (Negativos o Positivos) es
más importante o relevante que el otro, podemos construir el primer indicador
básico de la siguiente manera:
+
+
= = [ ≠ ]
+
+ +
Este indicador brinda en forma general el porcentaje de casos mal clasificados,
representados con el color rojo en la matriz de confusión.
= + = −
= + TP FP
= − FN TN
Tabla 3: Matriz de confusión de ejemplo
29