Page 13 - Interrupción del Embarazo en México
P. 13

Datos redundantes

                         Columna < alc_o_municipio>

                         Hay algunos valores redundantes en la columna "alc_o_municipio". Las columnas
                         restantes ya no tienen datos redundantes. En este caso, la información es similar,
                         pero hay errores ortográficos en los valores. Esto podría desviar el análisis. Por lo
                         tanto,  los  valores  incorrectos  deben  eliminarse  reemplazándolos  por  valores
                         correctos.

                         Solución para la normalización:

                         Los valores incorrectos se corrigen y combinan con el valor de los registros
                         correctos. Esto se realiza con código Python en Jupyter.

                         •  df.loc[(df['alc_o_municipio']=='Tizayucan'), 'alc_o_municipio'] = 'Tizayuca'

                  Anomalías

                      a)  Columna <fsexual>

                         Hay 2 casos,

                         1.Algunos registros con valores : Edad < fsexual
                         2.Algunos registros con valores fsexuales como 0,1,2,3,116,128, etc., que no son
                         razonables

                         Solución para la normalización:

                         Caso 1: considerando el peor escenario, pero caso válido, es decir, fsexual = edad
                         Caso 2: si la edad es <13, fsexual = 13
                         Si la edad> 50, fsexual = mediana (fsexual)

                         Python codigo implementado:


                         •  df.loc[df['edad'] < df['fsexual'],'fsexual']=df['edad']
                         •  df.loc[13 > df['fsexual'],'fsexual']= 13
                         •  df.loc[50 < df['fsexual'],'fsexual']=df.fsexual.median()


                      b)  Columna <alc_o_municipio>

                         Hay un registro con datos ruidoso. Parece que esto puede tratarse como un valor
                         nulo y aplicar el mismo método utilizado para los valores nulos de esta variable.



                                                                                                             13
   8   9   10   11   12   13   14   15   16   17   18