Page 13 - Interrupción del Embarazo en México
P. 13
Datos redundantes
Columna < alc_o_municipio>
Hay algunos valores redundantes en la columna "alc_o_municipio". Las columnas
restantes ya no tienen datos redundantes. En este caso, la información es similar,
pero hay errores ortográficos en los valores. Esto podría desviar el análisis. Por lo
tanto, los valores incorrectos deben eliminarse reemplazándolos por valores
correctos.
Solución para la normalización:
Los valores incorrectos se corrigen y combinan con el valor de los registros
correctos. Esto se realiza con código Python en Jupyter.
• df.loc[(df['alc_o_municipio']=='Tizayucan'), 'alc_o_municipio'] = 'Tizayuca'
Anomalías
a) Columna <fsexual>
Hay 2 casos,
1.Algunos registros con valores : Edad < fsexual
2.Algunos registros con valores fsexuales como 0,1,2,3,116,128, etc., que no son
razonables
Solución para la normalización:
Caso 1: considerando el peor escenario, pero caso válido, es decir, fsexual = edad
Caso 2: si la edad es <13, fsexual = 13
Si la edad> 50, fsexual = mediana (fsexual)
Python codigo implementado:
• df.loc[df['edad'] < df['fsexual'],'fsexual']=df['edad']
• df.loc[13 > df['fsexual'],'fsexual']= 13
• df.loc[50 < df['fsexual'],'fsexual']=df.fsexual.median()
b) Columna <alc_o_municipio>
Hay un registro con datos ruidoso. Parece que esto puede tratarse como un valor
nulo y aplicar el mismo método utilizado para los valores nulos de esta variable.
13