Page 43 - LIBRO SEMANA PEDAGOGICA

P. 43

SEMANA
PEDAGÓGICA

UNIVERSIDAD - REGIÓN
REGIONALIZACIÓN

diez <- rep(1:ceiling(length(nov_raw)/10), each = 10)
diez <- diez[1:length(nov_raw)]
nov_text <- cbind(diez, nov_raw) %>% data.frame()
nov_text <- aggregate(formula = nov_raw ~ diez,
data = nov_text,
FUN = paste,
collapse = " ")

Ahora tomamos la columna con los párrafos para analisarla.

nov_text <- nov_text %>% select(nov_raw) %>% as.matrix
dim(nov_text)

LIMPIEZA DEL TEXTO

Eliminamos caracteres especiales, saltos de linea y tabulaciones.

nov_text <- gsub("[[:cntrl:]]", " ", nov_text)

Convertimos todo a minúsculas para facilitar el análisis

nov_text <- tolower(nov_text)

Usamos removeWords con stopwords("spanish") para eliminar palabras con poco
signiﬁcado para el análisis.

nov_text <- removeWords(nov_text, words = stopwords("spanish"))

Eliminamos la puntuación, los números y espacios en blanco.

nov_text <- removePunctuation(nov_text)
nov_text <- removeNumbers(nov_text)
nov_text <- stripWhitespace(nov_text)

ANALISIS DEL CORPUS
Para este caso, nuestro corpus este compuesto por todos los párrafos de nuestro
documento.

38 39 40 41 42 43 44 45 46 47 48