基于tf-idf关键词提取,超简单!还能生成「词云图和语义网络图」
在学术论文研究中,经常用到,基于tf-idf算法来优化关键词关联规则,并找出与文本分析相关性较大的关键词。
很多牛人自学python抽取关键词,但需要花费的时间精力就很难估量了。
那么,不想学python,又想快速又简单“基于tf-idf”自动关键词提取、还想生成关键词云图和语义网络关系图的?
你找对教程了,一口气全部送你!
用不上3分钟,就能保证你可以上手操作了,保质保量保专业!
打开微词云分词,选择中文分词工具
简单说下,这款工具只要上传文本数据,就会自动帮你基于tf-idf抽取关键词了,并且还能生成词云图和语义网络图
工具专业度很高,大可放心。
好了和我一起操作下吧~
为了保证每个人都能学会,保证分析结果的准确性,我会把操作流程说的很详细,请大家耐心看下去
步骤1:上传文本数据
我们点击右侧顶部的导入「中文内容」按钮,此处支持txt和Excel两种格式,或者直接把内容复制到输入框中。
步骤2:数据配置
上传完数据后,我们可以看下顶部功能配置,可以优化数据分析结果哦
1)单词长度:如果单词长度设置为2,会过滤单字的词,一般默认2即可。
2)自定义词典:可以把关心的词,或者系统分不出来的新词输入到这里,可提高数据的价值度(如您还没有新词,可以试试旁边提示的新词发现工具)
3)指定词性:未勾选的词性,在分析中会被过滤掉,系统默认勾选的是常用的词性。如果您想保证数据完整性,可勾选全部词性哦。
步骤3:进入到报告分析页面
当您配置好顶部的参数后,点击右上角的「下一步」进入到关键词抽取,关系图生成报告页面
如果系统提示您是否去重,可以选择不去重,如果为了保持数据的完整性。
去重是清洗数据的一种方法而已。
步骤4:基于IF-IDF筛选关键词
我们往下滑动报告页面,会在特征词列表看到TF-IDF这一列
我们可以点击倒序和正序来筛选关键词,这个结果就是我上面提到的自动根据TF——IDF抽取关键词的结果数据哦
当前你也可以下载特征词表,进一步做分析,以及做根据TF-IDF高低筛词,来做一张关键词云图
下载的位置,在顶部的基础信息位置上
步骤5:基于IF-IDF筛选关键词并制作词云图
我们打开excel表,点击TF-IDF表头位置,根据降序筛选(也就是从高到低进行排序的意思)
我们就会很容易得到相关性较大的关键词了,我们复制下来前100关键词和次数值(单词出现的次数),来最一张词云图
点击顶部的其他产品,选择词云设计
切换到了词云生成页面了,我们先点击单词导入,选择excel导入,因为我们需要导入的是关键词和词频数
其中“模版2”格式符合我们的当前的需求,所以点击下载这个模版,把刚刚的两列数据复制到这个模版2中吧
在点击上传刚刚保存的模版2表就行了
最后点击【生成并使用】就行了
点击顶部的【加载词云】看下关键词云图效果
可以通过调整字体、颜色、角度等配置来美化词云图哦。
步骤6:生成语义网络关系图
这个图表在报告最底部,我们滑动到「网络关系图」位置上
主要告诉大家两大功能
第一个就是:如何重新选择展示的网络关系图的单词
第二个就是:如何调整网络关系图的效果,让单词之间的关系更加直观!
我们先来说第一问题:选词
点击右侧顶部的「重新选词」功能按钮
您会看到词性和搜索框
所以可以根据,词性和自主搜索方式来添加关键词
那么如何删除不想展示的关键词呢,在展示的关键词列表,鼠标点击单词即可删除点击的单词了
选好词后,点击右侧的「计算关系」按钮就行
那么第二个问题:优化效果
点击右侧顶部的「更改布局/配色」功能按钮
因为这个位置的配置功能都超简单,点击与选择即可看效果,所以我只挑重要的,影响关系效果的配置来解释说明
1)加权功能参数:控制网络关系图节点圆圈大小的,加权值越小,节点大小越大
关系说明:节点圆圈大小受单词词频数大小来决定,词频越大,节点圆圈越大
2)最大线宽功能参数:为了让关系值更直观,可以适当增加线宽值
关系说明:线宽粗细受共现值影响,共现值越大,线宽越粗。
其他的配置参数如字体大小、字体样式、弯曲程度,颜色等大家都可以自己点击试试,也可以查看顶部的视频教程来学习下。
效果生成完成后,我们就可以下载满意的语义网络关系图了,操作真的不难。
往下滑动,还有一个上色好的共词矩阵表,在分析报告中,展示共词矩阵表来说明,关键词之间的关系更具有说信服力,还大大提升了你分析的专业度。
好了,说了这么多,学会记得打卡哦~