文本分析之多份文本词频分析比较

01.一份或者多份文本进行分词、词频统计、词性标注的分析方法

首先:打开微词云中文分词软件:https://fenci.weiciyun.com/cn/
如果希望得到每一份文本的分析结果,需要一次一次上传数据并下载分析数据结果,中文分词不支持批量分析数据

微词云分词 文本分析 词频统计

如何上传数据:

1、点击左侧顶部的「导入中文内容」支持txt或者excel导入
2、都不是以上格式的文本,可以复制内容粘贴到文本框中

微词云分词 文本导入


如何修改数据参数:

1、如果想保留单词长度为1的单个词,可以把单词长度设置为1即可
2、把“关心的词”或“新词”输入到自定义词典中


微词云分词 自定义词典


3、把需要合并的同义词,输入到同义词词典中


微词云分词 同义词典


4、可以勾选全部词性,为了保证数据的完整性。


微词云分词 词性过滤


生成报告:

点击右上角的「下一步」按钮,开始对文本进行分词、单词标注词性和词频统计
系统提示是否去重,可以选择不去重,为了保证上传的数据的完整性

微词云分词 文本分析报告

下载分词、词频与词性标注数据:
我们可以下载打标词表:是文本切词分词的结果数据

微词云分词 分词结果 切词表 打标词表

我们可以下载特征词表:里面有词性标注和词频统计次数数据

微词云分词 词频 TFIDF 词性标注

剩下的文本可以重复以上的操作步骤




02.如何对两份文本或多份文本的关键词和词频数进行比较分析呢?

微词云旗下,有一款词频对比工具
首先我们打开微词云的词频对比工具:https://tools.weiciyun.com/text/diff/

微词云分词 词频对比 文本比多


上传关键词与词频数据

把两份数据中的单词和次数复制到文件A中,格式按照默认的关键词与次数格式一样即可

微词云分词 词频对比 文本比多

把多余的文本删除即可,文本名称可以点击进行修改

微词云分词 词频对比 文本比多


生成并计算对比数据结果

最后点击左下角的蓝色按钮「开始计算」即可
可以直接下载表格

微词云分词 多文本词频对比 文本比对

微词云分词

里面有关于2个文本中共同的词和出现次数,以及文本中独有的词是什么

微词云分词

多份文本比对方法与上面的一样,比如您有4份文本,您想对文1和文本2、3、4合并的文本进行关键词词频参数的比较

您可以先对2、3、4文本合并在一起在进行中文分词得到特征词表
在利用微词云词频对比工具进行分析即可,操作的思路与上面是一样的,就不再啰嗦重复说明了。




03.指定提取词与去除词

自定义词典与指定词使用方法:

中文分词中可以利用自定义词:可以实现,分析者希望文本提取的指定单词有哪些
举个例子,我只想看”伙伴”、”同情”、”健康”这个几个词
您可以在第一步数据导入中的「指定词性」只勾选自定义词就行了,其他的词性都取消

微词云分词 指定关键词 自定义词典 词库


去除词使用方法

相反,如何让一些词永远不要显示出来呢?
那么您可以试试去除词功能啦
就在生成报告右侧顶部,就有个去除词功能,把不想展示的词输入到这里就行了

微词云分词 去除词 过滤关键词


好了本次分享就到这里,我们下期文本分析再见。

最后更新于: 2022-10-03 02:06:41
感谢您的阅读,本文由 微词云分词 版权所有。如若转载,请注明出处:微词云分词(https://fenci.weiciyun.com/blog/2022/10/02/fenci-wenbenbidui/
基于tf-idf关键词提取,超简单!还能生成「词云图和语义网络图」
不用Gephi、不用编程,也能生成专业好看的网络关系图

目录

  1. 1. 01.一份或者多份文本进行分词、词频统计、词性标注的分析方法
    1. 1.1. 如何上传数据:
    2. 1.2. 如何修改数据参数:
    3. 1.3. 生成报告:
  2. 2. 02.如何对两份文本或多份文本的关键词和词频数进行比较分析呢?
    1. 2.1. 上传关键词与词频数据
    2. 2.2. 生成并计算对比数据结果
  3. 3. 03.指定提取词与去除词
    1. 3.1. 自定义词典与指定词使用方法:
    2. 3.2. 去除词使用方法