用jiebaR,wordcloud2对十九大报告进行文本分析

Rstudio

Rstudio

  • 问题先行
    • Rmarkdown中的注释必须符合规范,输入的字符也是;
    • hugo的摘要现了问题,对于中文“水土不服”的问题处理 后,可以避免全文sumarry,参考内容摘要,但是 Rmarkdown中 的问题还尚待明晰。

  • 前期准备
library(jiebaR)
library(wordcloud2)
wen_ben_data<-scan("C:/Users/nsus/Desktop/十九大报告解析.txt", sep =  '\n',what='',encoding = 'UTF-8') #载入包,读取文本文件
  • 数据处理
seg <- qseg[wen_ben_data] #使用qseg类型分词,并把结果保存到对象seg中
seg <- seg[nchar(seg)>1] #去除字符长度小于2的词语
seg <- table(seg) #统计词频

seg <- seg[!grepl('[0-9]+',names(seg))] #去除数字
length(seg) #查看处理完后剩余的词数
## [1] 3142
seg <- sort(seg, decreasing = TRUE)[1:1000] #降序排序,并提取出现次数最多的前1000个词语
  • 做词云
library(wordcloud2)
wordcloud2(seg, size = 1/3,shape = 'star') 
letterCloud(seg,size = 1/3,"概")