
新词挖掘KO中文分词,秒分出高质量新词
新词发现的价值
热衷研究自然语言算法的我们,近些年发现大家在使用微词云分词时,经常遇到一个头大的问题“未登录词”分不出来!,换句话说,就是中文分词词典中没有的词
也是大家常说的,我想要的词为何没有提取出来,赶紧上线个智能分词吧!
然而,中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?
更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等等,它们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克这一难关。
自动发现新词成为了关键的环节。
所以我们上线了新词发现工具,并优化了新词发现算法。
新词挖掘解决什么需求?
我,我,我,我哑口无言,然后,给技术劈头盖脸一顿臭骂~
继续开心收集用户需求反馈~
当下的中文分词技术引用的词典法,所以分词返回的结果,都是词典中的词;
恰恰你想要的词,词典恰巧没有肿么办?实在不好意思,技术都是死脑筋,只知道按程序办事!
词典分不出来的词为“新词”也称之为词典中的“未登录”词。没错新词挖掘工具,就是来解决未登录词的问题的。
拿新词挖掘工具,来发现新词,建立自己的行业词库也是可行的。有了自己的词库,害怕分词分不准,绝不可能!
新词挖掘为何这么神气???
不信?我们随机找几个文本亲测下看看
找来一个小红书“护肤”博主推文内容,来测测看
找来一个“教育类”政策类文章,来测测看
找来一个“京东平台上卖手机”评论内容,来测测看
![京东电商手机评论新词发现]https://staticc.ywordle.com/static/2022-07-21/5be682e4a7e2c8dff74da20b2a8e86b5.png)
惊奇地发现,单词长度大多集中在3~6之间;
并且这些词是词典中没有的新词哦!
一下子提升分词结果的可读性,关键词层面表达意思更立体直观了!
话都说到这份儿上了,还不让大家伙,看看工具啥样,咋用呀~
抢手货“新词发现”工具来了
当然,“新词发现”会员权益都含在了中文分词会员中;在新词发现页面购买的会员也是中文分词会员哦~
同时,旧的“中文分词”年会员用户,同时享有新上线的新词发现权益哒~
新词发现工具操作很简单
1.导入单词
2.复制新词结果
3.过滤新词结果
4.查看关心词组合结果
直接看重点,我们直接看新词展示结果页,大家可观看”新词挖掘功能与效果展示视频”
新词列表
需要向大家解释下“凝聚度”和“自由度”这两个词的意思,影响大家选新。
凝聚度:A单词和B单词总是形影不离,几乎不与其他单词高外遇。
查看一个凝聚度最高的新词“一分钱一分货”
全篇文本中,一分钱出现的次数是5次
全篇文本中,一分货出现的次数是5次
全篇文本中,一分钱一分货出现的次数是5次
三个关键词出现的次数都是一样的,一分钱一分货总是凝聚在一起,与其他单词从不有染。
一般凝聚度越高,越有可能是真正的未登录的”新词”
自由度,相对于凝聚度的概念,自由度就是个浪子
这里引用一个“信息熵”概念,简单来说是衡量一个文本片段的左邻字集合和右邻字集合有多随机
来看个”自由度”最高的例子“全面屏”,是有全面和屏组合的,其中“全面”词频是151,“屏”的词频是198,全面屏的词频是138次
我们在搜“全面”还与哪些词组合了,不搜不知道,一搜吓一跳,与全面组合的有12个
与”屏”组合的词有38个
其中组合占比最大的是“全面屏”
说白了自由度是衡量单词组合词的能力的一种表现。
只要我们懂了这两个概念,那个新词发现的筛选起来就简单多了,我们可以根据凝聚度、自由度和词频数等参数来筛选新词结果,新词结果支持一键复制哦
当然啦,新词挖掘肯定有一些不符合自己需求的词,配合人工挑词,保质保量!
单词列表
下面还有一个单词列表,这是干嘛的?
单词表是按照高频词到低频词进行排序的,点击任意单词,你会看到这个单词的所有新词组合,那么可以肆无忌惮的查看,自己关心的关键词的新词组合都有哪些啦
![单词组合新词挖掘]https://staticc.ywordle.com/static/2022-07-21/00b38bffad9da45012c427ea0140f4d7.png)
我们可以查看到“关心词”新词的左邻词和右邻词结果
包含,单词之间的组合次数、词频柱状图、组合次数桑基图等有效信息
第一个版本体验可能会比较粗糙,但核心功能已经发布;未来会根据用户反馈继续更新版本优化体验和功能。