Page 43 - LIBRO SEMANA PEDAGOGICA
P. 43
SEMANA
PEDAGÓGICA
UNIVERSIDAD - REGIÓN
REGIONALIZACIÓN
diez <- rep(1:ceiling(length(nov_raw)/10), each = 10)
diez <- diez[1:length(nov_raw)]
nov_text <- cbind(diez, nov_raw) %>% data.frame()
nov_text <- aggregate(formula = nov_raw ~ diez,
data = nov_text,
FUN = paste,
collapse = " ")
Ahora tomamos la columna con los párrafos para analisarla.
nov_text <- nov_text %>% select(nov_raw) %>% as.matrix
dim(nov_text)
LIMPIEZA DEL TEXTO
Eliminamos caracteres especiales, saltos de linea y tabulaciones.
nov_text <- gsub("[[:cntrl:]]", " ", nov_text)
Convertimos todo a minúsculas para facilitar el análisis
nov_text <- tolower(nov_text)
Usamos removeWords con stopwords("spanish") para eliminar palabras con poco
significado para el análisis.
nov_text <- removeWords(nov_text, words = stopwords("spanish"))
Eliminamos la puntuación, los números y espacios en blanco.
nov_text <- removePunctuation(nov_text)
nov_text <- removeNumbers(nov_text)
nov_text <- stripWhitespace(nov_text)
ANALISIS DEL CORPUS
Para este caso, nuestro corpus este compuesto por todos los párrafos de nuestro
documento.