一种基于文本智能挖掘的政策热点预测方法技术

技术编号:30441567 阅读:36 留言:0更新日期:2021-10-24 18:29
本发明专利技术公开了一种基于文本智能挖掘的政策热点预测方法,包括步骤一:选择原始文本,拆分文本内容,基于TF

【技术实现步骤摘要】
一种基于文本智能挖掘的政策热点预测方法


[0001]本专利技术属于大数据
,具体为一种基于文本智能挖掘的政策热点预测方法。

技术介绍

[0002]互联网规模的扩大和大数据存储、计算成本的不断降低使得当代信息数据的来源广泛。大数据凭借其庞大的体量、多样性、高速性和价值性使得数据驱动决策日益重要。现今,大数据处理与分析已成为许多行业研究中不可或缺的部分。现代信息社会大数据中,文本数据占比最大,对文本数据信息的处理有着广泛的应用场景,基于文本数据的趋势预测、情感分析等对于商业、新闻媒体与政府等主体有着重要价值。目前,许多前沿研究基于文本大数据挖掘来分析社交媒体舆论信息,这种借助知识图谱、神经网络的量化建模分析方法获取的预测结果有着较高的准确性。文本挖掘技术(Text Mining),即自然语言处理(Natural Language Processing),是一系列计算工具及统计技术的总称。文本挖掘技术处理文本速度快、效率高。2009年内以来,文本挖掘技术进入持续发展阶段,挖掘深层知识模式是未来的重要方向。一般的文本挖掘的基本步骤包括:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本智能挖掘的政策热点预测方法,其特征在于:包括以下步骤:步骤一:选择原始文本,拆分文本内容,基于TF

IDF算法抽取关键词,TF

IDF算法的具体计算步骤如下:a,计算词频:词频(TF)=某个词在文本中的出现次数由于不同的政策文本长短不同,为了进行不同样本之间的比较,需要对所述词频进行标准化处理:词频(TF)=某个词在文本中的出现次数/文本的总词数;b,计算逆文档频率:在这个过程中,需要建立一个语料库,用来模拟语言的使用环境;逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1);步骤二:基于知识图谱的识别政策文本实体;步骤三:利用对比类推的思想进行差异性与空白点预测;步骤四:利用灰色预测模型得到未来政策文本的关键词词频的预测值;步骤五:基于关键词词集构建网络图,利用K

means方法进行主题聚类,基于主题之间的相似性矩阵,将专家、智库、媒体、政策等不同类型因素作为调控因子纳入模型中调控预测结果的权重,最终可视化获得预测结果。2.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二的知识图谱的构建过程是从原始数据出发,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程,所述构建过程需要若干个循环,所述循环包括信息抽取、知识融合以及知识加工三个阶段。3.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二中的识别政策文本实体采用Bi

Lstm+Crf模型。4.如权利要求1所述的一种基于文本智能挖掘的政策热点预测方法,其特征在于:所述步骤二中的政策...

【专利技术属性】
技术研发人员:向安玲
申请(专利权)人:北京清博智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1