The invention discloses an automatic extraction method of CPPCC proposal concerns, which includes the following steps: establishing proposal thesaurus and sample set; accepting proposals and segmenting the content of proposal documents according to proposal thesaurus; calculating the weight of each segmented word according to sample set; sorting words according to weight; and according to arithmetic wisdom. It can calculate which kind of concerns belong to the proposal; return the classification results and update the thesaurus. The invention can accurately classify the proposal of the CPPCC and quickly extract the concerns of the proposal content, save the time of manual classification, reduce the cost of proposal classification, and greatly improve the work efficiency.
【技术实现步骤摘要】
政协提案关注点自动提取方法
本专利技术涉及数据自动提取
,特别是一种针对政协提案关注点的自动提取方法。
技术介绍
随着信息技术的发展,数字化的信息正以惊人的速度增长,人们每天要面对大量的数字化信息来进行阅读,为了节省时间和提高工作效率,原始的数字信息的各种简洁表示(例如,摘要、关键词等形式)应运而生。人们可以通过这些简洁表示来快速了解原始信息的大致内容,而不需要通读全文。通常,形成这些简洁表示的基本元素是从原始信息提取的关键词。目前现有技术中关键词的提取大多是基于新闻资讯类文章,而对于政协委员们提交的提案等文章则无法准确地快速地实现关注点的提取。
技术实现思路
本专利技术需要解决的技术问题是提供一种用于对政协提案的关注点进行自动提取的方法。为解决上述技术问题,本专利技术所采取的技术方案如下。政协提案关注点自动提取方法,具体包括以下步骤:A.建立提案词库以及样本集;B.接受提案,根据提案词库对提案文档的内容进行分词;C.根据样本集计算每个分词的权重;D.按照权重对分词进行排序;E.根据算法智能计算该提案归属哪类关注点;F.返回分类结果,并更新词库。上述政协提案关注点自动提取方法,步骤C中所述的权重计算方法为:根据TF-IDF算法计算每个分词的权重,再根据特定语义词库,提高某些关键词的权重阀值,来提高权重计算的精度。上述政协提案关注点自动提取方法,步骤E中所述的算法为:通过余弦距离算法,计算该提案与样本集提案的距离,离哪类样本提案距离最近,则归属于哪类关注点。由于采用了以上技术方案,本专利技术所取得技术进步如下。本专利技术能够对政协提案进行准确分类,并快速提 ...
【技术保护点】
1.政协提案关注点自动提取方法,其特征在于,具体包括以下步骤:A.建立提案词库以及样本集;B.接受提案,根据提案词库对提案文档的内容进行分词;C.根据样本集计算每个分词的权重;D.按照权重对分词进行排序;E.根据算法智能计算该提案归属哪类关注点;F.返回分类结果,并更新词库。
【技术特征摘要】
1.政协提案关注点自动提取方法,其特征在于,具体包括以下步骤:A.建立提案词库以及样本集;B.接受提案,根据提案词库对提案文档的内容进行分词;C.根据样本集计算每个分词的权重;D.按照权重对分词进行排序;E.根据算法智能计算该提案归属哪类关注点;F.返回分类结果,并更新词库。2.根据权利要求1所述的政协提案关注点自动提取方法,...
【专利技术属性】
技术研发人员:徐艺,刘跃华,卓优胜,杨帆,
申请(专利权)人:湖南正宇软件技术开发有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。