Page 43 - LIBRO SEMANA PEDAGOGICA
P. 43

SEMANA
             PEDAGÓGICA



                        UNIVERSIDAD - REGIÓN
                                                                                                            REGIONALIZACIÓN




                  diez <- rep(1:ceiling(length(nov_raw)/10), each = 10)
                  diez <- diez[1:length(nov_raw)]
                  nov_text <- cbind(diez, nov_raw) %>% data.frame()
                  nov_text <- aggregate(formula = nov_raw ~ diez,
                                        data = nov_text,
                                        FUN = paste,
                                        collapse = " ")



           Ahora tomamos la columna con los párrafos para analisarla.



                  nov_text <- nov_text %>% select(nov_raw) %>% as.matrix
                  dim(nov_text)


           LIMPIEZA DEL TEXTO

           Eliminamos caracteres especiales, saltos de linea y tabulaciones.


                  nov_text <- gsub("[[:cntrl:]]", " ", nov_text)



           Convertimos todo a minúsculas para facilitar el análisis

                  nov_text <- tolower(nov_text)


           Usamos  removeWords  con  stopwords("spanish")  para  eliminar  palabras  con  poco
           significado para el análisis.

                  nov_text <- removeWords(nov_text, words = stopwords("spanish"))


           Eliminamos la puntuación, los números y espacios en blanco.


                  nov_text <- removePunctuation(nov_text)
                  nov_text <- removeNumbers(nov_text)
                  nov_text <- stripWhitespace(nov_text)


           ANALISIS DEL CORPUS
           Para  este  caso,  nuestro  corpus  este  compuesto  por  todos  los  párrafos  de  nuestro
           documento.
   38   39   40   41   42   43   44   45   46   47   48