政协提案关注点自动提取方法技术

技术编号:19388832 阅读:70 留言:0更新日期:2018-11-10 02:00
本发明专利技术公开了一种政协提案关注点自动提取方法,具体包括以下步骤:建立提案词库以及样本集;接受提案,根据提案词库对提案文档的内容进行分词;根据样本集计算每个分词的权重;按照权重对分词进行排序;根据算法智能计算该提案归属哪类关注点;返回分类结果,并更新词库。本发明专利技术能够对政协提案进行准确分类,并快速提取提案内容的关注点,节约了人工分类的时间,降低了提案分类的成本,大大提高了工作效率。

Automatic extraction method of CPPCC concerns

The invention discloses an automatic extraction method of CPPCC proposal concerns, which includes the following steps: establishing proposal thesaurus and sample set; accepting proposals and segmenting the content of proposal documents according to proposal thesaurus; calculating the weight of each segmented word according to sample set; sorting words according to weight; and according to arithmetic wisdom. It can calculate which kind of concerns belong to the proposal; return the classification results and update the thesaurus. The invention can accurately classify the proposal of the CPPCC and quickly extract the concerns of the proposal content, save the time of manual classification, reduce the cost of proposal classification, and greatly improve the work efficiency.

【技术实现步骤摘要】
政协提案关注点自动提取方法
本专利技术涉及数据自动提取
,特别是一种针对政协提案关注点的自动提取方法。
技术介绍
随着信息技术的发展,数字化的信息正以惊人的速度增长,人们每天要面对大量的数字化信息来进行阅读,为了节省时间和提高工作效率,原始的数字信息的各种简洁表示(例如,摘要、关键词等形式)应运而生。人们可以通过这些简洁表示来快速了解原始信息的大致内容,而不需要通读全文。通常,形成这些简洁表示的基本元素是从原始信息提取的关键词。目前现有技术中关键词的提取大多是基于新闻资讯类文章,而对于政协委员们提交的提案等文章则无法准确地快速地实现关注点的提取。
技术实现思路
本专利技术需要解决的技术问题是提供一种用于对政协提案的关注点进行自动提取的方法。为解决上述技术问题,本专利技术所采取的技术方案如下。政协提案关注点自动提取方法,具体包括以下步骤:A.建立提案词库以及样本集;B.接受提案,根据提案词库对提案文档的内容进行分词;C.根据样本集计算每个分词的权重;D.按照权重对分词进行排序;E.根据算法智能计算该提案归属哪类关注点;F.返回分类结果,并更新词库。上述政协提案关注点自动提取方法,步骤C中所述的权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。上述政协提案关注点自动提取方法,步骤E中所述的算法为:通过余弦距离算法,计算该提案与样本集提案的距离,离哪类样本提案距离最近,则归属于哪类关注点。由于采用了以上技术方案,本专利技术所取得技术进步如下。本专利技术能够对政协提案进行准确分类,并快速提取提案内容的关注点,节约了人工分类的时间,降低了提案分类的成本,大大提高了工作效率。附图说明图1为本专利技术的流程图。具体实施方式下面将结合具体实施例对本专利技术进行进一步详细说明。一种政协提案关注点自动提取方法,基于政协领域多年积累的词库与样本集来获得提案关注点自动提取的基础,该自动提取方法具体包括以下步骤。A.建立提案词库以及样本集。B.接受提案,根据提案词库对提案文档的内容进行分词。C.根据样本集计算每个分词的权重。所述权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。TF-IDF算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在词库中出现的频率成反比下降。D.按照权重对分词进行排序。E.根据算法智能计算该提案归属哪类关注点。该算法是针对政协领域改进的分类算法,具体是通过余弦距离算法,计算该提案与样本集提案的距离,离哪类样本提案距离最近,则归属于哪类关注点。F.返回分类结果,并更新词库。本文档来自技高网...

【技术保护点】
1.政协提案关注点自动提取方法,其特征在于,具体包括以下步骤:A.建立提案词库以及样本集;B.接受提案,根据提案词库对提案文档的内容进行分词;C.根据样本集计算每个分词的权重;D.按照权重对分词进行排序;E.根据算法智能计算该提案归属哪类关注点;F.返回分类结果,并更新词库。

【技术特征摘要】
1.政协提案关注点自动提取方法,其特征在于,具体包括以下步骤:A.建立提案词库以及样本集;B.接受提案,根据提案词库对提案文档的内容进行分词;C.根据样本集计算每个分词的权重;D.按照权重对分词进行排序;E.根据算法智能计算该提案归属哪类关注点;F.返回分类结果,并更新词库。2.根据权利要求1所述的政协提案关注点自动提取方法,...

【专利技术属性】
技术研发人员:徐艺刘跃华卓优胜杨帆
申请(专利权)人:湖南正宇软件技术开发有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1