一种术语抽取方法及系统技术方案

技术编号:41310936 阅读:39 留言:0更新日期:2024-05-13 14:54
本发明专利技术涉及一种术语抽取方法及系统,属于软件文字提取技术领域,本发明专利技术针对政策术语的特点,提出了一种基于零样本语义增强的多策略政策术语抽取方法,一方面采用融合频数、自由度、凝固度等多种策略,获得包含政策结构信息的术语新词,解决长词术语抽取难的问题;另一方面利用预训练语言模型增强语义相似度匹配来召回包含政策语义信息的术语新词,解决低频术语召回难的问题。本发明专利技术结合两者信息来生成政策术语词库并可对其迭代更新,切实解决了人工抽取政策术语的困难。

【技术实现步骤摘要】

本专利技术涉及一种术语抽取方法及系统,属于软件文字提取。


技术介绍

1、随着我国政务信息化进程的加快,政策公文的数量呈爆炸式增长,形成了海量政策文本的流转。政策文本是用来记录政策活动而产生的过程性文件,是政策服务研究的重要载体和依据,包括通知、公告、意见、批复等公文类别。政策文本分析技术在政策解读、政企协同、企业决策和成果转化等政务服务方面,具有非常重要的现实意义。

2、政策文本分析面临着诸多问题,政策文本中出现大量与时俱进的政策术语新词,造成政策领域的分词不够准确,严重影响了对政策文本的分析效果。由于缺乏政策术语词库,导致海量政策文本难以建立细粒度的索引,政务服务平台无法进行高效的政策文本检索。政策术语抽取成为了解决这一难题的当务之急,通常政策文本术语抽取示例如表1所示。

3、表1政策文本术语抽取示例

4、

5、由上表可知,政策术语在政策文本中主要表现为:(1)时效性:随着时事变化不断更新;(2)低频度:普遍出现次数较少,高频词可能并不是该领域的术语;(3)稀疏性:普遍分布少且远;(4)复合长词:构词上缺少本文档来自技高网...

【技术保护点】

1.一种术语抽取方法,其特征在于,包括复合长词术语抽取和低频术语抽取,其中:

2.根据权利要求1所述的术语抽取方法,其特征在于,步骤1中,所述复合长词术语抽取实现步骤如下:

3.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,

4.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,

5.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,

6.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(4)中,

7.根据权利要求1所述的术语抽取方法,其特征在于,步...

【技术特征摘要】

1.一种术语抽取方法,其特征在于,包括复合长词术语抽取和低频术语抽取,其中:

2.根据权利要求1所述的术语抽取方法,其特征在于,步骤1中,所述复合长词术语抽取实现步骤如下:

3.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,

4.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,

5.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(3)中,

6.根据权利要求2所述的术语抽取方法,其特征在于,步骤1的步骤(4)中,

7.根据权利要求1所述的术语抽取方法,其特征在于,步骤2所述低频术语抽取实现步骤如下:

8.根据权利要求7所述的术语抽取方法,其特征在于,步骤2的步骤(1)中,父短语为组合短语,父短语中包含子短语。

...

【专利技术属性】
技术研发人员:张庆文朱涛刘玉鹏陈华林欧阳严峻
申请(专利权)人:政和科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1