【技术实现步骤摘要】
本专利技术涉及一种术语抽取方法及系统,属于软件文字提取。
技术介绍
1、随着我国政务信息化进程的加快,政策公文的数量呈爆炸式增长,形成了海量政策文本的流转。政策文本是用来记录政策活动而产生的过程性文件,是政策服务研究的重要载体和依据,包括通知、公告、意见、批复等公文类别。政策文本分析技术在政策解读、政企协同、企业决策和成果转化等政务服务方面,具有非常重要的现实意义。
2、政策文本分析面临着诸多问题,政策文本中出现大量与时俱进的政策术语新词,造成政策领域的分词不够准确,严重影响了对政策文本的分析效果。由于缺乏政策术语词库,导致海量政策文本难以建立细粒度的索引,政务服务平台无法进行高效的政策文本检索。政策术语抽取成为了解决这一难题的当务之急,通常政策文本术语抽取示例如表1所示。
3、表1政策文本术语抽取示例
4、
5、由上表可知,政策术语在政策文本中主要表现为:(1)时效性:随着时事变化不断更新;(2)低频度:普遍出现次数较少,高频词可能并不是该领域的术语;(3)稀疏性:普遍分布少且远;(4)
...【技术保护点】
1.一种术语抽取方法,其特征在于,包括复合长词术语抽取和低频术语抽取,其中:
2.根据权利要求1所述的术语抽取方法,其特征在于,步骤1中,所述复合长词术语抽取实现步骤如下:
3.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,
4.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,
5.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,
6.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(4)中,
7.根据权利要求1所述的术语抽取
...【技术特征摘要】
1.一种术语抽取方法,其特征在于,包括复合长词术语抽取和低频术语抽取,其中:
2.根据权利要求1所述的术语抽取方法,其特征在于,步骤1中,所述复合长词术语抽取实现步骤如下:
3.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,
4.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,
5.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,
6.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(4)中,
7.根据权利要求1所述的术语抽取方法,其特征在于,步骤2所述低频术语抽取实现步骤如下:
8.根据权利要求7所述的术语抽取方法,其特征在于,步骤2的步骤(1)中,父短语为组合短语,父短语中包含子短语。
...
【专利技术属性】
技术研发人员:张庆文,朱涛,刘玉鹏,陈华林,欧阳严峻,
申请(专利权)人:政和科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。