一种关键词提取方法、终端、计算机可读存储介质技术

技术编号:24996885 阅读:27 留言:0更新日期:2020-07-24 17:59
本申请实施例公开了一种关键词提取方法、终端、计算机可读存储介质,其中方法包括:输入专利文本;根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。通过上述方法可以提高专利文本领域中关键词提取结果的准确性。

【技术实现步骤摘要】
一种关键词提取方法、终端、计算机可读存储介质
本申请涉及计算机
,尤其涉及一种关键词提取方法、终端、计算机可读存储介质。
技术介绍
近年来,我国的专利数量不断增加,截止2018年底,不计港澳台专利技术专利数量,我国专利技术专利拥有量共计160.2万件,每万人口专利技术专利拥有量达到11.5件,可见,专利正在逐步成为国家和企业发展的战略性资源以及核心竞争力。专利文本呈现海量的特征,无论是在进行专利侵权诉讼,还是进行专利申请,专利数据挖掘等,对专利文本进行有效的分析处理已显得越来越重要。专利作为一种特殊的文本形式,相较于其他文本具有技术性强、专业性高、数据结构复杂等特点,而且大部分专利的篇幅很长,专利关键词作为对文本内容的高度概括和归纳的短语,不仅可以帮助人们快速定位到专利文本以及了解一篇专利文本的主要内容,还可以对专利申请、专利侵权判断、专利权认定、专利聚类等进行引导和启发。考虑到专利关键词的重要性,专利文本的自动关键词抽取受到了很大的关注,如何提高专利文本关键词抽取的准确率成为了一个热门的研究方向。r>
技术实现思路
...

【技术保护点】
1.一种关键词提取方法,其特征在于,所述关键词提取方法应用于专利文本,所述方法包括:/n输入专利文本;/n根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;/n根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;/n将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。/n

【技术特征摘要】
1.一种关键词提取方法,其特征在于,所述关键词提取方法应用于专利文本,所述方法包括:
输入专利文本;
根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集;
根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集;
将所述关键词候选集与所述专利要素集进行权重值计算,根据权重值计算结果确定出所述专利文本的关键词集合。


2.如权利要求1所述的方法,其特征在于,所述根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集之前,还包括:
定义所述专利文本的标签词以及所述标签词的抽取位置对应关系,所述标签词用于表征专利信息,所述标签词的抽取位置对应关系表示所述标签词所指向的词语抽取位置;
所述根据第二预设模型对所述专利文本进行专利要素抽取处理,得到所述专利文本的专利要素集,包括:
根据所述标签词以及所述标签词的抽取位置对应关系,利用第二预设模型抽取所述标签词所对应的抽取位置上的词语,所述抽取位置包括前向位置和/或后向位置;
将抽取到的词语作为所述专利文本的专利要素集。


3.如权利要求1或2所述的方法,其特征在于,所述第一预设模型为主题模型;所述根据第一预设模型对所述专利文本进行关键词抽取处理,得到关键词候选集,包括:
将所述专利文本进行文本预处理,以建立半结构化词语集合,所述半结构化词语集合包括预设词性的词语;
通过所述主题模型确定所述半结构化词语集合中每个词语的主题分布,所述主题分布是指给定词语W的条件下,所述词语W被分布到主题Z的概率;
根据所述每个词语的主题分布计算词语的信息熵,根据所述信息熵计算每个词语的权重值;
根据每个词语的权重值得到关键词候选...

【专利技术属性】
技术研发人员:张清华刘学颖
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1