文本分析之多份文本词频分析比较
01.一份或者多份文本进行分词、词频统计、词性标注的分析方法
首先:打开微词云中文分词软件:https://fenci.weiciyun.com/cn/
如果希望得到每一份文本的分析结果,需要一次一次上传数据并下载分析数据结果,中文分词不支持批量分析数据
如何上传数据:
1、点击左侧顶部的「导入中文内容」支持txt或者excel导入
2、都不是以上格式的文本,可以复制内容粘贴到文本框中
如何修改数据参数:
1、如果想保留单词长度为1的单个词,可以把单词长度设置为1即可
2、把“关心的词”或“新词”输入到自定义词典中
3、把需要合并的同义词,输入到同义词词典中
4、可以勾选全部词性,为了保证数据的完整性。
生成报告:
点击右上角的「下一步」按钮,开始对文本进行分词、单词标注词性和词频统计
系统提示是否去重,可以选择不去重,为了保证上传的数据的完整性
下载分词、词频与词性标注数据:
我们可以下载打标词表:是文本切词分词的结果数据
我们可以下载特征词表:里面有词性标注和词频统计次数数据
剩下的文本可以重复以上的操作步骤
02.如何对两份文本或多份文本的关键词和词频数进行比较分析呢?
微词云旗下,有一款词频对比工具
首先我们打开微词云的词频对比工具:https://tools.weiciyun.com/text/diff/
上传关键词与词频数据
把两份数据中的单词和次数复制到文件A中,格式按照默认的关键词与次数格式一样即可
把多余的文本删除即可,文本名称可以点击进行修改
生成并计算对比数据结果
最后点击左下角的蓝色按钮「开始计算」即可
可以直接下载表格
里面有关于2个文本中共同的词和出现次数,以及文本中独有的词是什么
多份文本比对方法与上面的一样,比如您有4份文本,您想对文1和文本2、3、4合并的文本进行关键词词频参数的比较
您可以先对2、3、4文本合并在一起在进行中文分词得到特征词表
在利用微词云词频对比工具进行分析即可,操作的思路与上面是一样的,就不再啰嗦重复说明了。
03.指定提取词与去除词
自定义词典与指定词使用方法:
中文分词中可以利用自定义词:可以实现,分析者希望文本提取的指定单词有哪些
举个例子,我只想看”伙伴”、”同情”、”健康”这个几个词
您可以在第一步数据导入中的「指定词性」只勾选自定义词就行了,其他的词性都取消
去除词使用方法
相反,如何让一些词永远不要显示出来呢?
那么您可以试试去除词功能啦
就在生成报告右侧顶部,就有个去除词功能,把不想展示的词输入到这里就行了
好了本次分享就到这里,我们下期文本分析再见。