文本挖掘分析了“3年养老政策“文本,报告比对分析结果出于意料!
人终有一老,随着人均预期寿命延长、老年人口增加,人口老龄化正在深刻而广泛地影响我国经济社会发展的各个领域和层面,谁都希望自己老有所依,老有所养,老有所乐,安享晚年,所以发展养老服务将是重中之重。
我整理了21年、20年、19年共3年的政策报告,想来做一次文本挖掘分析报告,并对三年数据做报告比对,看看我能给发现哪些有趣惊人的数据吧!
本文分析的语料:
1)国务院关于印发国家老龄事业发展和养老服务体系规划的通知国发〔2021〕35号、〔2020〕52号、〔2019〕5号
我将从几个角度进行挖掘与分析
1、文本处理与分词
1、发现新词:挖掘文本新词,提高词频分析价值
2、词频分析:高频词提取、单词分布分析
3、关联性分析:基于相关性、词频、tfidf,分析关键词之间关联度。
4、语义网络分析:基于共现社区聚类分析语义关系网
5、情感分析:正负面占比、情绪趋势、正负面情感词。
文本整理与分词
先对中文文本进行分词,开源免费的解决方案或在线工具都很多,例如开源你可以用jieba、StanfordNLP,知乎上搜索会一大堆;
傻瓜在线免费工具也有很多,例如微词云中文分词、新浪微舆情工具、易词云工具等
先做了个总的文本分词,采用在线分词工具分词效果如下:
根据分词结果显示,养老服务被分成养老和服务了,以及文本中新词可能部分没有被提取出来,为了让分析文本的准确性以及挖掘更多专业新词,接下来先对整个文本进行新词挖掘
文本新词挖掘
技术过硬的人,可以选择自己挖掘新词,但新词挖掘技术尚不成熟,花费精力也不少;我这里引用的是一款在线新词挖掘工具
把整个文本先导入,可以导入关心的高频词,这些数据可从上面分词结果中选择如“养老,服务,老年人,机构,发展,建设,社会,健康,社区,建立,开展,国家,政策,老龄,提供,民政部,规划,护理,保障,改革,管理,能力,政府”
这里可以根据词频、凝聚度、自由度、新词概率选择新词结果
使用新词挖掘工具结果如下
使用上面中文分词工具,并把新词导入自定义词典后,看下分词结果效果变化
词频分析
根据上面的操作思路,我们接下来分析下,3年的养老政策文本
上面使用的两款产品地址在这里:
1、https://fenci.weiciyun.com/cn
2、https://fenci.weiciyun.com/cn/findword/
19年养老服务政策报告词频分析
这里只保留了常用的词性例如,名词、动词、形容词、人名、地名、专有名词、副词、习语、简称略称等29个常用词性,这里展示了前140个高频词,其中,“养老服务”词频排名最大,值为68,其次是养老机构和老人。
20年养老服务政策报告词频分析
其中,“养老机构”词频排名最大,值为69,其次是“监管”和“养老服务”。
21年养老服务政策报告词频分析
其中,“老年人”词频排名最大,值为69,其次是“服务”和“发展”。
3年高频词数据对比
19年、20年、21年高频词对比数据中可以看出,这三年连续出现的高频词有“养老服务,养老机构,老年人,服务,建设,养老,发展,社会,开展,建立,工作,机构,标准,落实,加强,监管,制定”等
并用词频对比在线工具做了个数据表,如下
几乎在21年所有高频词出现频次都达到最高点,其中“老年人”出现次数最高。
我们在看看只有在19年或20年获、或21年单独出现的高频有哪些
19年提到:分工负责、卫生健康委、就业、享受、供养
20年提到:安全、信用、执法、监督管理、应当、进行、数据
21年提到:健康、护理、能力、需求、基层、公办养老机构、创新
可以看出对养老服务的政策逐步推进,从基础需求到高级需求的一个跨越
词频对比工具地址:https://tools.weiciyun.com/text/diff/
19年、20年、21年三年的相关性词云图
从相关词云图可看出,19年相关词最高的是“养老机构、”;20年、21年相关词最高的词都是“养老服务”出现次数足年升高,可见对养老服务的关注有增无减的趋势。
在看下这3年的基础数据对比结果
明显可看出20年养老服务政策推进略有下降,与19年、21年基础数据比
我又整理了这三年中关于服务、机构相关词词频对比表
这三年一直持续关注服务设施、领域、体系、发展服务以及公共服务,20年和21年推出上门服务,21年推出了社区养老服务政策,其中21又加强了医疗服务、以及服务水平等
关于机构相关词,近三年都有出现公办养老机构、金融机构、医疗机构三大基础养老机构,19年就推出了“民办养老机构”。
单词分布图
这个分布图趋势图就很有意思了,先看下19年,单词分布峰值相对比较均匀,每条数据的单词量相对较丰富
在看20年,开头部分还能看到几个峰值,在后半段急速下降输出的内容很少,并且在上面分析词频中也有分析出20年政策大不如往年
我们在看下21年的,比较激进,尤其在开头,达到最高峰点,从关键词分布图来看21年政策是相对激进的一年
以上关于基础词频分析结果先说到这里。
词关联性分析
我们先看下这三年关于养老服务的关联性数据结果,这里的数据结果都是通过微词云中文分词报告提供的
19年,养老服务关联性分析结果数据
通过相关性值来看,与养老服务相关性最高的词有:相关、机制、标准、工作、加快、推动、制度、大力、培训、有效等相关词。
可推断,正在完善标准、推动加快落实政策
而通过共现值来看,与养老服务共现值最高的词有:养老机构、发展、服务、建设、养老、工作、政府、老年人、支持、社会等词
在看下通过TFIDF值,与养老服务有关的词有哪些:养老服务设施、养老机构、就业、消防、老年人、信息、同步、贷款、长期、建设等词
20年,养老服务关联性分析结果数据
通过相关性值来看,与养老服务相关性最高的词有:综合、健全、发展、资金、高质量、协调、经营、加大、意见、相结合等相关词,可推断,相比19年今年更侧重综合、高质量以及健全的发展养老服务。
在通过共现值来看,与养老服务共现值最高的词有:养老机构、监管、标准、加强、服务、制定、建立、规范、部门、社会等词
在看下通过TFIDF值,与养老服务有关的词有哪些:数据、信息、监管、标准、基本、养老机构、信用、老年人、记录、制定等词
21年,养老服务关联性分析结果数据
通过相关性值来看,与养老服务相关性最高的词有:职业院校、国家标准、层面、解决方案、法规、体现、需要、具备条件、老年学、医务人员。
查看了相关原始数据,其中国家正在推行开展“职业院校养老服务相关专业”进一步落实人才缺口问题,并推出养老服务“国家标准”规章,可推断养老服务正在不断的完善中
![文本分析 文本挖掘 关联性分析 中文分词 微词云 相关性分析(https://staticc.ywordle.com/static/2023-02-08/f5c64a31b29708467f07d184d34bf01e.png)
在通过共现值来看,与养老服务共现值最高的词有:服务、支持、养老机构、相关、建设、发展、管理、机构、专业、标准等词
在看下通过TFIDF值,与养老服务有关的词有哪些:发展、老年人、养老机构、建设、配套、服务、支持、相关、机构、养老服务设施等词
语义网络分析
我们在来分析下近三年的网络关系,就用上面的前60个高频词计算下网络矩阵看看
19年语义网络分析:
看下网络矩阵表,你可以自己写程序计算,也可以用在线工具都可以,上面提到的中文分词软件中可生成矩阵表
我跑程序计算的共词矩阵表结果,数据量较大,我只放了一部分数据进行展示,对应的数值是单词之间的共现次数值
因为表数据没有上色所以找数据比较费劲,但是仍可以看出里面的共现较高的有发展和养老服务、建设和养老设施、建设和养老服务等
其实可以初步判断,19年的养老服务在建设和发展中
我们可以在把矩阵表转化成Vosviewer.net格式,还可以生成一个共现聚类网络关系图
其中圆圈组成一个元素,元素的大小取决于节点的度、连线的强度、被引量等,元素的颜色代表其所属的聚类,不同的聚类用不同的颜色表示,通过该视图可以查看每个单独的聚类,所以有图可见我们可分析出共聚了四类
第一类:老年人、服务、分工负责、养老、养老机构、支持、开展、鼓励、产品、推进、长期、管理、消防、依法、提升、条件
第二类:养老服务、社会、工作、建立、加强、完善、监管、制定、相关、机制、组织、信息、全国、市场监管、总局
第三类:职责、建设、社区、养老服务设施、改革、项目、企业、提供、探索、情况
第四类:民政部、地方、人民政府、政府、政策、标准、负责、落实、补贴、财政部、实施、就业、改造、享受
从四个分类可以看出,主要是围绕着,老年人、养老服务和职责以及民政部为核心词
我们在看看密度视图,可以看出:密度越大位置,颜色越深,密度越小,颜色相对越浅,其中密度大小依赖于周围区域关键词的数量以及关键词的重要性
重要关键词主要有:养老服务、社区、民政部、服务、老年人、社会、社会、发展、标准、建设等
20年语义网络分析:
先看下网络矩阵图,这次我用中文分词进行生成,大家看下效果如何,这里最大可生成50个词,我自己跑代码的话就可以生成更多了,但大多数情况50个词以够用了
这里生成的矩阵表自带颜色的,系统会把共现次数大的数值区域颜色会深,次数值小的地方颜色会变浅,着色的功能会直观看出哪些词之间的共词值更高
例如“监管与养老机构、监管与养老服务、加强和养老机构、数据与信息、监管与部分、监管与信息”等共现次数都很高
可以初步判断20年,处于对养老机构的监管完善的阶段
通过该视图可以查看每个单独的聚类,所以有图可见我们可分析出共聚了三类
第一类:监管、养老服务、部门、建立、信用、标准、制定、政府、社会、行业、综合、规范、推动、公开、健全、制度、发展、措施、建设、执法、检查、监督、行政、职责
第二类:信息、数据、实施、组织、养老服务领域、共享、国家、服务质量、水平、职业技能、从业人员、养老
第三类:养老机构、加强、依法、负责、服务、安全、管理、老年人、机构、工作、行为、登记、应急、引导、民政部门、指导、开展、责任、风险、消防、资金、运营、落实、督促
从四个分类可以看出,主要是围绕着“监管、信息、养老机构”为核心词
我们在看看密度视图,可以看出重要关键词主要有“监管、部门、信用、依法、加强、养老服务、信息”等
21年语义网络分析:
使用微词云中文分词先生成上色的共词矩阵表
从颜色深浅可以看出,共现最高的词有老年人和服务、发展和老年人、社会和老年人、支持和老年人、加强和老年人、鼓励和老年人、健康和老年人
其实可以看出,从19年”建设养老服务设施“到20年监管养老服务在到21年老年人服务,发展支持加强老年人等高度共现词来看,21年真正的把养老服务投入到老人身上,也可以初步说明,养老服务在从设备、监管上到达了具体老年人身上了,所以养老服务政策更加具有落实性,完善性了
通过该视图可以查看每个单独的聚类,所以有图可见我们可分析出共聚了四类
第一类:养老机构、建立、完善、护理、提升、能力、养老、政策、需求、机制、制度、健全、公办养老机构、保障、水平、加大
第二类:支持、养老服务、建设、推动、规划、标准、改造、地方、实施、制定、养老服务设施、工作
第三类:发展、加强、健康、推进、结合、产品、积极、国家、教育、企业、创新、重点、全国、促进、行动、用品、智能
第四类:老年人、服务、社会、开展、鼓励、机构、提供、社区、引导、组织、基层、活动、家庭、条件、居家
从四个分类可以看出,主要是围绕着“养老机构、支持、发展、老年人”为核心词。
我们在看看密度视图,可以看出重要关键词主要有“老年人、支持、推进、发展”等
以上分析可看出,19年、20年21年的养老服务关注点个不相同,从不同的维度去优化推荐养老服务行业
情感正负面分析
我们还可以简单的分析下关于这三年的情感请趋势
这里借助一款在线的情感分析软件来完成
地址:https://fenci.weiciyun.com/cn/sentiment/
19年情感分析倾向结果展示
20年情感分析倾向结果展示
21年情感分析倾向结果展示
从这三年的情感占比可看出,偏向正面的占比较高,尤其是20年正面占比最高;但从情绪值与数量分布情况数据表来看19年正面得分最高,可达19.12分;
从正面词和负面词显示来看,19年正面词主要有:服务、职责、发展、建设;20年正面词主要有:服务、负责、管理、建设;21年正面词主要有:服务、发展、支持、建设
而从负面词来看,19年负面词主要有:老年、问题、困难;20年负面词主要有:风险、活动、处置;21年负面词主要有:老年、结合、活动
好了本次关于三年养老服务政策分析就到这里,抛砖引玉,希望对你的做文本挖掘分析有思路上的帮助。
也希望国家的养老服务政策能让所有老人能有个健康快乐的养老生活,快乐平安的度过余生。