Page 46 - LIBRO SEMANA PEDAGOGICA
P. 46

SEMANA
                                                                    PEDAGÓGICA



                                                                               UNIVERSIDAD - REGIÓN
                                                      REGIONALIZACIÓN



             Ahora obtenemos el gráfico con el porcentaje de las palabras mas frecuentes.



                 nov_mat %>%
                   mutate(perc = (frec/sum(frec))*100) %>%
                   .[1:10, ] %>%
                   ggplot(aes(palabra, perc)) +
                   geom_bar(stat = "identity", color = "black", fill = "#87CEFA") +
                   geom_text(aes(hjust = 1.3, label = round(perc, 2))) +
                   coord_flip() +
                   labs(title = "Diez palabras más frecuentes", x = "Palabras", y = "Porcentaje de uso")




             ASOCIACIÓN ENTRE PALABRAS

             En este proceso buscamos las palabras que se asocian directamente a las palabras que
             introducimos en c, para agruparlas.


                 findAssocs(nov_tdm, terms = c("palabra1", "palabra2", "palabra3", "palabra4",…),
                 corlimit = .25)





             AGRUPAMIENTO JERÁRQUICO (HIERARCHICAL CLUSTERING)

             Realizaremos análisis de agrupaciones jerárquicas para identificar grupos de palabras
             relacionados entre sí, a partir de la distancia que existe entre ellos.


             Empezaremos por eliminar los términos dispersos en nuestra matriz de términos, para así
             conservar  únicamente  las  palabras  más  frecuentes  y  obtener  resultados  más
             interpretables del agrupamiento.



             ELIMINAR TÉRMINOS DISPERSOSA

             Depuramos palabras que aparecen con poca frecuencia.




                 nov_new <- removeSparseTerms(nov_tdm, sparse = .95)
   41   42   43   44   45   46   47   48   49   50   51