【技术实现步骤摘要】
提案热点精准提取的方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及提案热点提取的方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,传统人工作业逐渐被计算机给替代,在政府会议开展时,会议参与者一般而言会提交大量的提案,为了提高会议的进展,需要对所提交的提案进行热点分析,从而提出热词,以尽快确认本次会议的重点议题。传统技术中,是根据关键词的词频进行统计后,确定出热词,然而,提取出来的大部分都不是真正能体现提案内容的热词。比如经常会提取到“新华社”、“发改委”这类词,而通过人工分析后,热词实际上是“扶贫攻坚战”“复工复产”“十四五规划”等类重点词汇。因此,传统技术在进行热词提取时,存在提取不精确的问题,难以直接使用。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决现有热词提取不精确问题的提案热点提取的方法、装置、计算机设备和存储介质。一种提案热点精准提取的方法,所述方法包括:获取政府文件库;所述政府文件库包括:政府文件;所述政府文件 ...
【技术保护点】
1.一种提案热点精准提取的方法,其特征在于,所述方法包括:/n获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;/n根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;/n将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;/n根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词,对所述第一重点 ...
【技术特征摘要】
1.一种提案热点精准提取的方法,其特征在于,所述方法包括:
获取政府文件库;所述政府文件库包括:政府文件;所述政府文件是从各级政府官网服务器中提取得到的;
根据预先设置的分词库,对政府文件库中的政府文件进行分词,根据分词结果,构建第一重点词库;
将政府文件库中的政府文件划分为多个最小词以及获取所述最小词出现的第一概率,根据所述最小词构建组合词以及获取所述组合词出现的第二概率,根据所述第一概率,计算所述组合词的预测概率,当所述组合词的所述第二概率大于所述预测概率,则确定所述组合词为新词;
根据所述新词,对所述分词库进行更新,得到更新分词库,根据所述新词,对所述第一重点词库进行更新,得到第二重点词库;
获取待提取提案,根据所述更新分词库对待提取提案进行分词,得到单词集;
根据TF-IDF算法,得到所述单词集中单词的初始权重;
根据所述单词集匹配所述第二重点词库得到的匹配结果,设置所述单词集中单词的附加权重;
根据所述初始权重和所述附加权重,得到所述单词集中单词的最终权重;
根据所述最终权重的排序结果,确定热点词;
所述附加权重包括:第一附加权重;
当所述匹配结果为所述单词集中单词出现在所述第二重点词库中时,获取政府文件的位置来源信息,根据所述位置来源信息和所述新词在所述政府文件中出现的次数,确定每个新词在各地区的次数;
获取热点提取任务的地理信息,根据所述地理信息,确定所述新词的地理属性级别;所述地理属性级别是根据所述新词在各地区的次数从大到小排序结果得到的;
根据所述地理属性级别和所述次数,确定新词的第一附加权重。
2.根据权利要求1所述的方法,其特征在于,所述地理属性级别包括:专属城市、关联城市以及其他城市。
3.根据权利要求1或2所述的方法,其特征在于,根据所述地理属性级别和所述次数,确定新词的第一附加权重,包括:
当地理属性级别为专属城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
其中,表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;
当地理属性级别为关联城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
其中,表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的;
当地理属性级别为其他城市,根据所述地理属性级别和所述次数,确定新词的第一附加权重为:
其中,表示第一附加权重,n表示所述新词在目标地区的次数,所述目标地区是从所述地理信息中提取得到的。...
【专利技术属性】
技术研发人员:刘跃华,徐艺,刘坤朋,
申请(专利权)人:湖南正宇软件技术开发有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。