中文分词词频统计与分析指南【全版】

词频统计与分析简单三步即可

  1. 上传文本数据
  2. 词频词性筛词
  3. 生成文本分析数据与可视化

中文分词 词频统计 词频分析


那么接下来我会对每个步骤详细的解说,在这里您可以找到所有问题的答案,最全的词频统计与分析使用教程了!



如何导入文本

这一步我们主要“导入文本数据”与进行基础的“数据过滤”配置以及“导入词典”,让分词结果更有意义更精准。


1、文本导入格式与方法

打开在线分词地址:中文分词统计分析

点击左侧顶部的「从文本中导入内容」就可以了


在线分词 文本导入 词频统计


这里支持excel和txt两种导入格式,也支持文本内容复制粘贴导入方法
我们更推荐txt纯文本导入方式


1)导入文本支持大小

每次最大支持10Mtxt纯文本导入,大概1千万字节,大概500万中文。
每次免费用户最大支持1M纯文本导入,大概1百万字节,大概50万中文。
超标的文本词频统计,可找我们的客服小姐姐“文本定制”,会员用户还有赠送。


2)导入的txt文本出现乱码怎么办?

一般这种情况的发生,可能在格式转换过程出现的问题,在这里你可以使用这个乱码转换器来处理这个问题
乱码转换器体验地址


文本乱码 文本导入


操作步骤

  1. 选择文本
  2. 点击左侧“复制”或者点击“导出UTF-8文件”

2、文本过滤与配置

文本上传成功后,请留步,看下这里的文本过滤和配置功能吧,对接下来的文本分词筛词绝对有影响。
主要影响单词分词长度、词频量、分词量和分词结果显示等数据。


1)计算单词相关性

解释: 是一种共词分析方法,研究分析关键词之间的亲疏远近关系,还支持查看单词所在数据的位置。

影响: 勾选了计算单词相关性,您可以查看和下载Top20共词网络关系图、单词之间的共词数据、关系词云图

所在位置: 在顶部的左侧位置


注意: 计算单词相关性是会员功能。


单词相关性 相关性


2)单词长度筛选

如果你只想保留单词长度为2及以上的,那么“单词长度”就是输入2就可,如果还想保留单词长度为1及以上的,可以输入1就行
其他的单词长度配置同理。
所在位置:在顶部的便左位置


单词长度 词频统计


3)词频数过滤

如果您想过滤低频词,那么“词频”框就输入对应的数值就行,例如只保留词频大于10的高频词,那么数值就输入10就行了
所在位置:在顶部的中间位置


高频词过滤


4)单词提取量最大与最小

如果您想尽可能的保留文本的所有分词结果,那么您就配置选择返回所有单词
如果您只想保留高频词那么提取前500个词就够了
注意:单词提取量只有前200和500是免费的,其他的配置是会员功能。


分词量 单词提取


5)分出关心词与自定义词典

我们经常遇到,分词结果被分开的现象,例如新时代,被分成新和时代两个词了,那么自定义词典就是解决用户“想分出来的词”系统却“没有给分来”的问题。

那么您可以在自定义词典中输入或者导入您已经准备好的词典词就行了。

注意: 自定义词典免费用户可体验前5个词。


自定义词 分词


6)进入词频统计页面

点击左侧【下一步】我们就可以进入到词频统计筛词页面,内容导入与配置就完成了。



词频词性筛词

这一步非常关键,是生成报告数据与可视化重要的一步。主要就是选词。
左侧是词性词频表,右侧是词频从高到低的词频表,左侧底部是词频过滤表。


词频词性 词频统计


1、词性筛词

我们可以点击关心的词性,进行单独的筛选单词,也可以勾选关心的词性,全部选择该词性下的所有词频
希望选择所有词频:点击词性列表上面的「选择所有」就行了,只要把所有词性都勾选了,所有词频就会勾选。


但是单词量很大时,生成报告会很卡,特别是查看相关性时,大家可以额外注意下。


词性选词 词性分析


2、词频筛词

右侧是有词频高到低展示关键词,此处是让大家看下哪些关键词被选中了,同时也是大家粗略筛选和过滤一些自己不需要的词


词频筛词 中文分词


3、搜索关心词筛词

右上角有个搜索框,可以输入自己关心的词,迷糊查询,会查询到所有包含这个词的所有关键词

可以点击勾选需要的词

并且可以点击下载关心词的词频表


查询关心词 搜索词


4、词频数过滤

左下角有个词频数过滤功能,可以输入过滤的词频数,并点击提交即可。


词频数 词频表 词频统计


5、下载词频统计结果

在顶部的右侧上面会有「下载分词结果」

最好提前下载词频统计结果数据,因为不同的电脑性能,可能会在第三步生成报告时存在卡顿现象,以防数据丢失




生成文本分析数据与可视化

1、数据报告页面必知道的几个隐藏功能

1)下载功能图标

页面上箭头向下的图标都是下载功能按钮,可以在对应的可视化和数据页面中进行点击下载即可


下载


2)编辑功能图标

三条横杠的图标是此处可视化图可进行编辑的意思,并且点击这个图标就会弹出配置的功能


编辑功能


3)如何查看单词相关性

点击报告中任意词频关键词都可以进入到单词相关性页面



4)词性与词频如何创建更多词云图

很多的词频表和词云图旁都有「创建词云图」的文字提示,点击它会进入到词云图编辑器中,可以生成更多亮眼的词云图哦!

关于词云图设计可参考词云图生成指


词性与词频 词云图


2、文本统计信息

  1. 文本大小:以txt为准的纯文本大小
  2. 字数:文本的内容字数总量
  3. 分词单词总数:文本分词词频统计后不重复的单词总量
  4. 筛词总数:分词后被保留下来的单词量
  5. 选择单词数:勾选单词总量

文本统计信息 文本分析


3、词性占比

解释: 也就是说词性之间的单词量之比
下载可视化:这里直接可以点击右侧顶部的下载按钮下载可视化效果图
隐藏不关心的词性:点击顶部词性颜色柱,就可取消饼状图对应的词性占比


词性占比 词性分析


4、单词相关性查看

解释: 是对一个词与其他词统计他们在同句子中出现的次数,以此对这些词作基础的共现分析,从而反映出现这些词之间的亲疏,远近关系。
备注:单词相关性的分析是会员功能,免费用户可查看基础的报告展示。


单词相关性  相关性 词频分析


1)查看一个和多个单词相关性

查看方法: 点击右侧词频列表中的任意高频词就能进入到单词相关性页面;报告中任意能点击的单词位置都可以进入到单词相关性页面


单词相关性、共现词云图


  1. 可以导出词频表
  2. 可以创建词云图

可查看最多四层关系: 我们可查看4个词之间共同出现的词频表和数据所在的位置相关性数据


单词相关性、共现分析、相关词


2)单词“所在文本数据的位置”数据下载

在相关性页面位置,我们会看到左侧列表是单词在数据中的位置,那么我们点击左侧顶部的下载按钮,就可以成功下载数据了
这里的数据可帮助用户分析单词具体放入语境以及深度的关系分析。


单词定位 数据下载


5、词频表

在最左侧的列表是词频表,我们下载词频表,也可以点击查看单词相关性

词频表


创建词云图: 可点击右侧顶部的「创建词云图」进入到词云图编辑器,可生成更多样式的词云图

如果想生成更多关键词的词频图:点击右侧顶部的词频表的「创建词云图」,选择「使用所有单词」


关于词云图设计可参考词云图生成指南如下地址:词云图设计可参考词云图生成指


6、高频词云图

在报告中见位置,就会看到高频词云图,鼠标移动到单词身上就会显示词频数值,单词显示越大,表示词频越大


高频词云图 词云图 词云图生成


7、共词网络关系图

1)解释

共词分析(Co-word Analysis)是一种较新的文献计量学方法,其属于内容分析方法的一种。


网络关系图 共词分析 共现分析


2)原理

是对一-组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行共现分析,从而反映出这些词之间的“亲疏”关系,进而分析这些词所代表的学科或主题的结构与变化。


3)可视化关系解读

  1. 节点边框越大,表明该词影响程度越大

网络关系图 共词分析 共现分析


  1. 鼠标移动到某个词位置处,可显示该词与哪些词关系连线,以及该词的词频

网络关系图 共词分析 共现分析


  1. 鼠标移动到两个词的连线位置,显示的数值代表两两词共同出现的次数

网络关系图 共词分析 共现分析


  1. 共同出现的次数越大,可以反应他们之间的亲密关系。

5)生成

如果分析的文本较大时,不会主动显示,可点击「显示关系图」
因为网络关系图是遍历算法,所以关系网络会很多,计算会存在卡顿的现象,请耐心等待。


网络关系图 共词分析 共现分析


6)选词

在右侧的功能按钮位置,可以删除和增加关系的词,进行生成关系网络图,建议词不要太多,渲染关系图时会卡顿
删除词:取消勾选当前页面的词就行
增加词:在搜索框中输入关心的词,并点击「查找」按钮,点击查找到的词后,即可添加成功。
确定关键词后,点击右侧「确定」按钮


网络关系图 共词分析 共现分析


7)美化共词网络关系图

具体说下如何美化下网络关系图,让线条和关系网络更清晰,我们可以修改主题、布局配置、改变颜色等。

步骤1: 点击左侧的“选择主题”按钮


网络关系图 共词分析 共现分析


步骤2: 选择主题模版样式,一个是引力布局,一个是环形布局

步骤3: 修改配置布局

(1)加权次数,可控制关系圈的显示大小,若关键词没有交叉或者显示大小大的离谱的情况,可不考虑改变

(2)关系圈的最小尺寸,就是最小圈的显示大小的意思,如果没有使用加权值,可能无效。

(3)边的曲度,就是关系线的展示的样式而已,都可以点击试试看,一般默认“正常”

(4)排斥力:如果使用的是环形主题,排斥力无效,近适合“引力布局”主题

(5)距离:就是关键词之间的距离值

(6)节点形状:就是关键词外部轮廓形状


网络关系图 共词分析 共现分析


步骤4: 自定义颜色

(1)节点颜色:关键词外部轮廓的背景色

(2)节点边框颜色:就是关键词外部轮廓线的颜色

(3)节点的【文本颜色】:就是关键词的颜色

(4)【连接线】的颜色:网络关系线的颜色


网络关系图 共词分析 共现分析


备注: 如果我们使用的主题是引力布局,我个人觉得边的曲度为“无”时,效果比较好看,并且有3D立体感


网络关系图 共词分析 共现分析


8、词性高频词柱状图

词性柱状图可视化我们增加了修改配置功能,如增加和删除不想展示的词,以及修改柱状颜色,和正序还是倒序展示效果等配置功能


词频分析 词性词频表 词性分析 词性高频词柱状图


1)如何修改词性柱状图展示的关键词?

这里的功能可以解决“词性分类不精准”问题,和剔除不关心的词,人工的修正数据,让展示结果更准确。


词频分析 词性词频表 词性分析


取消关键词: 点击词性柱状图的右侧的「编辑图标」,可以取消勾选某个关键词

增加关键词: 点击词性柱状图的右侧的「编辑图标」,把关心的词输入到文本框中点击查找。


2)如何修改柱状图展示颜色

  1. 点击词性柱状图的右侧的「编辑图标」,我们就会看到颜色修改,
  2. 最右侧中间的颜色框是可以自定义选择颜色值的功能
  3. 选择好颜色后,记得点击右侧底部的「确定」就行

词频分析 词性词频表 词性分析


3)如何修改柱正序还是倒序的状态

  1. 点击词性柱状图的右侧的「编辑图标」,我们就会看到两个选择展示序列的方式按钮
  2. 点击正序或倒序
  3. 记得点击右侧底部的「确定」就行

词频分析 词性词频表 词性分析


4)创建词性词频词云图

  1. 在每次词性词频柱状图顶部都会看到「创建词云图」的文字提示
  2. 点击它就可以进入到词云图生成器页面
  3. 关于词云图设计可参考词云图生成指南

5)下载词性柱状图可视化

在每次词性词频柱状图顶部都会看到下载的图标,点击下载图标即可下载


最后更新于: 2022-06-13 14:37:34
感谢您的阅读,本文由 微词云分词 版权所有。如若转载,请注明出处:微词云分词(https://fenci.weiciyun.com/blog/2022/06/12/zhinan-cipinfenxi/
新词挖掘KO中文分词,秒分出高质量新词

目录

  1. 1. 词频统计与分析简单三步即可
  • 如何导入文本
    1. 1、文本导入格式与方法
      1. 1. 1)导入文本支持大小
      2. 2. 2)导入的txt文本出现乱码怎么办?
    2. 2、文本过滤与配置
      1. 1. 1)计算单词相关性
      2. 2. 2)单词长度筛选
      3. 3. 3)词频数过滤
      4. 4. 4)单词提取量最大与最小
      5. 5. 5)分出关心词与自定义词典
      6. 6. 6)进入词频统计页面
  • 词频词性筛词
    1. 1、词性筛词
    2. 2、词频筛词
    3. 3、搜索关心词筛词
    4. 4、词频数过滤
    5. 5、下载词频统计结果
  • 生成文本分析数据与可视化
    1. 1、数据报告页面必知道的几个隐藏功能
      1. 1. 1)下载功能图标
      2. 2. 2)编辑功能图标
      3. 3. 3)如何查看单词相关性
      4. 4. 4)词性与词频如何创建更多词云图
    2. 2、文本统计信息
    3. 3、词性占比
    4. 4、单词相关性查看
      1. 1. 1)查看一个和多个单词相关性
      2. 2. 2)单词“所在文本数据的位置”数据下载
    5. 5、词频表
    6. 6、高频词云图
    7. 7、共词网络关系图
      1. 1. 1)解释
      2. 2. 2)原理
      3. 3. 3)可视化关系解读
      4. 4. 5)生成
      5. 5. 6)选词
      6. 6. 7)美化共词网络关系图
    8. 8、词性高频词柱状图
      1. 1. 1)如何修改词性柱状图展示的关键词?
      2. 2. 2)如何修改柱状图展示颜色
      3. 3. 3)如何修改柱正序还是倒序的状态
      4. 4. 4)创建词性词频词云图
      5. 5. 5)下载词性柱状图可视化