学R第二天

用jiebaR,wordcloud2对十九大报告进行文本分析

Rstudio

问题先行
- Rmarkdown中的注释必须符合规范，输入的字符也是；
- hugo的摘要现了问题，对于中文“水土不服”的问题处理后，可以避免全文sumarry,参考内容摘要，但是 Rmarkdown中的问题还尚待明晰。

前期准备

library(jiebaR)
library(wordcloud2)
wen_ben_data<-scan("C:/Users/nsus/Desktop/十九大报告解析.txt", sep =  '\n',what='',encoding = 'UTF-8') #载入包，读取文本文件

数据处理

seg <- qseg[wen_ben_data] #使用qseg类型分词，并把结果保存到对象seg中
seg <- seg[nchar(seg)>1] #去除字符长度小于2的词语
seg <- table(seg) #统计词频

seg <- seg[!grepl('[0-9]+',names(seg))] #去除数字
length(seg) #查看处理完后剩余的词数

## [1] 3142

seg <- sort(seg, decreasing = TRUE)[1:1000] #降序排序，并提取出现次数最多的前1000个词语

做词云

library(wordcloud2)
wordcloud2(seg, size = 1/3,shape = 'star')

letterCloud(seg,size = 1/3,"概")

文章目录