Page 27 - Revista 2018 ultima
P. 27
Revista de la Facultad de Ingeniería, Año 5, Número 1
Donde el valor de [y] depende del enfoque que se esté aplicando. A modo de
i
ejemplo, para el caso del enfoque de Clasificación, [y] solamente puede ser 0 y 1
i
(Falso y Verdadero).
Una vez que los datos son introducidos en el algoritmo, se comienza a analizar las
variables y los resultados presentados con la finalidad de encontrar relaciones
ocultas que permitan predecir nuevos casos. Se le llama relaciones ocultas debido a
que para una persona serían muy difíciles de encontrar.
La inteligencia artificial es un campo de estudio en constante crecimiento. En el
modelo supervisado existen al menos siete enfoques que permiten a las
computadoras aprender.
● Clasificación
● Regresión
● Árboles de decisión
● Redes Neuronales
● Máquinas de vectores de soporte (SVMs)
● Clustering
● Recomendación
A continuación, exploraremos el enfoque de Clasificación dejando el resto de los
enfoques para futuros artículos.
Clasificación
En lo que se refiere a la definición teórica, se conoce como clasificación a la técnica
utilizada para predecir a qué clase o categoría pertenece el elemento que queremos
evaluar. Es uno de los principales problemas (o coreproblem) que aborda machine
learning y el objetivo es enseñarle al sistema a través del ejemplo.
Esta técnica puede ser aplicada tanto para clasificar imágenes como cualquier otro
tipo de datos. En la sección anterior, definimos el conjunto de datos necesario para
los modelos supervisados como [x ,x ,…,x ]; para el caso de las imágenes x ,x ,…,x
1 2 n 1 2 n
son las imágenes que queremos que el sistema aprenda a reconocer; mientras que
y es la “etiqueta” o el significado que le estamos dando a dicha imagen.
1
El funcionamiento de este algoritmo consiste en brindarle al sistema un conjunto de
datos (z, y) donde i es un valor de 1 a n y z es un conjunto de datos de forma
i i
[x ,x ,…,x ] con el que queremos construir el modelo. Con estos datos el algoritmo
1 2 n
crea una función f capaz de predecir el nuevo valor de y para un nuevo valor de z.
Para que el modelo creado funcione correctamente debe ser entrenado y para ello se
divide al conjunto inicial en 2 subconjuntos. Al primer subconjunto se le llama
conjunto de entrenamiento (training set) y el tamaño de datos debe ser superior al
60% (es aconsejable reservar el 70%); el segundo conjunto es el conjunto de
validación (testing set) y el tamaño de datos reservados para testing son los datos
restantes del conjunto total.
Como su nombre lo indica, el conjunto de entrenamiento se utiliza para entrenar,
ajustar los parámetros necesarios, mejorar y depurar el modelo. La validación final
se realiza utilizando el conjunto de datos reservado para test y validando el
resultado obtenido con el resultado real. Recordemos que en este conjunto de
datos, tenemos la correlación entre las variables y la etiqueta.
La clasificación es una técnica binaria, y por consiguiente los valores de salida
esperados son 0 y 1 (si o no) aunque en realidad el algoritmo no produce 0 y 1 sino
un valor entre 0 y 1 o dicho de otra forma, la probabilidad que sea 0 o 1. Para
27