Page 27 - Revista 2018 ultima
P. 27

Revista de la Facultad de Ingeniería, Año 5, Número 1

                  Donde  el  valor  de  [y]  depende  del  enfoque  que  se  esté  aplicando.  A  modo  de
                                          i
                  ejemplo, para el caso del enfoque de Clasificación, [y] solamente puede ser 0 y 1
                                                                             i
                  (Falso y Verdadero).
                  Una vez que los datos son introducidos en el algoritmo, se comienza a analizar las
                  variables  y  los  resultados  presentados  con  la  finalidad  de  encontrar  relaciones
                  ocultas que permitan predecir nuevos casos. Se le llama relaciones ocultas debido a
                  que para una persona serían muy difíciles de encontrar.
                  La  inteligencia  artificial  es  un  campo  de  estudio  en  constante  crecimiento.  En  el
                  modelo  supervisado  existen  al  menos  siete  enfoques  que  permiten  a  las
                  computadoras aprender.
                      ●  Clasificación
                      ●  Regresión
                      ●  Árboles de decisión
                      ●  Redes Neuronales
                      ●  Máquinas de vectores de soporte (SVMs)
                      ●  Clustering
                      ●  Recomendación

                  A  continuación,  exploraremos  el  enfoque  de  Clasificación  dejando  el  resto  de  los
                  enfoques para futuros artículos.

                  Clasificación
                  En lo que se refiere a la definición teórica, se conoce como clasificación a la técnica
                  utilizada para predecir a qué clase o categoría pertenece el elemento que queremos
                  evaluar. Es uno de los principales problemas (o coreproblem) que aborda machine
                  learning y el objetivo es enseñarle al sistema a través del ejemplo.
                  Esta técnica puede ser aplicada tanto para clasificar imágenes como cualquier otro
                  tipo de datos. En la sección anterior, definimos el conjunto de datos necesario para
                  los modelos supervisados como [x ,x ,…,x ]; para el caso de las imágenes x ,x ,…,x
                                                       1  2     n                                   1  2    n
                  son las imágenes que queremos que el sistema aprenda a reconocer; mientras que
                  y  es la “etiqueta” o el significado que le estamos dando a dicha imagen.
                   1
                  El funcionamiento de este algoritmo consiste en brindarle al sistema un conjunto de
                  datos  (z,  y)  donde  i  es  un  valor  de  1  a  n  y  z  es  un  conjunto  de  datos  de  forma
                           i  i
                  [x ,x ,…,x ] con el que queremos construir el modelo. Con estos datos el algoritmo
                    1  2    n
                  crea una función f capaz de predecir el nuevo valor de y para un nuevo valor de z.
                  Para que el modelo creado funcione correctamente debe ser entrenado y para ello se
                  divide  al  conjunto  inicial  en  2  subconjuntos.  Al  primer  subconjunto  se  le  llama
                  conjunto de entrenamiento (training set) y el tamaño de datos debe ser superior al
                  60%  (es  aconsejable  reservar  el  70%);  el  segundo  conjunto  es  el  conjunto  de
                  validación (testing set) y el tamaño de datos reservados para testing son los datos
                  restantes del conjunto total.

                  Como su nombre lo indica, el conjunto de entrenamiento se utiliza para entrenar,
                  ajustar los parámetros necesarios, mejorar y depurar el modelo. La validación final
                  se  realiza  utilizando  el  conjunto  de  datos  reservado  para  test  y  validando  el
                  resultado  obtenido  con  el  resultado  real.  Recordemos  que  en  este  conjunto  de
                  datos, tenemos la correlación entre las variables y la etiqueta.
                  La  clasificación  es  una  técnica  binaria,  y  por  consiguiente  los  valores  de  salida
                  esperados son 0 y 1 (si o no) aunque en realidad el algoritmo no produce 0 y 1 sino
                  un  valor  entre  0  y  1  o  dicho  de  otra  forma,  la  probabilidad  que  sea  0  o  1.  Para



                                                                                                           27
   22   23   24   25   26   27   28   29   30   31   32