当前位置: 首页 > 专利查询>湖南大学专利>正文

一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质技术方案

技术编号:27395160 阅读:18 留言:0更新日期:2021-02-21 14:05
本发明专利技术公开了一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质,该方法包括:基于字频差值从专利文本中提取参考组件词,其中,以附图标记为右边界提取候选词,基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词;提取专利文本中参考组件词的左侧词语并构建左边界词库,以左边界词库作为左边界及附图标记作为右边界提取专利文本中的组件候选词;基于组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称;其中,保留字频差值大于字频差阈值的字符位置上字频最大的字符。本发明专利技术方法可以准确以及高效自动识别实体命名,尤其是用于解决机械领域的组件名称提取。组件名称提取。组件名称提取。

【技术实现步骤摘要】
一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质


[0001]本专利技术属于自然语言处理
,具体涉及一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质。

技术介绍

[0002]高效、准确地从专利文本中提取机械系统组件信息,已成为自动获取专利技术方案至关重要的一环。系统组件属于技术方案的重要特征要素,在专利文献中表达为一种命名实体。目前,随着自然语言处理的发展和自动化获取知识需求的增加,从专利文本中自动识别命名实体已经受到广泛的关注。国内外许多研究者开展了相关的探索。文献1[陈秋瑗,程光,李迪,等.机械设计领域的命名实体识别研究.计算机工程与应用,2017,053(020):100-104.]通过统计字符串之间紧密相邻程度等特征和定义不同词之间紧密相连的程度,从中文文本中识别机械领域的领域词,其调和平均数F1为83.89%。文献2[胡杰.机电产品创新设计的知识获取模型与重用方法研究.贵州:贵州大学,2018.]通过对中文专利中指定类型的组件名称进行词性标注,统计其内部词性规则,利用双向长短期记忆神经网络和条件随机场概率模型对机电产品9类命名实体进行了识别,其9类实体提取的综合调和平均数F1为83.78%。
[0003]上述基于规则、统计或者两者结合的方法,需要建立组件名称内部构词特征的模板、构建组件名称边界词和制定统计方法。然而,机械领域专利文本中的命名实体构词规律复杂,难以构建统一的组件名称词性模板。利用组件名称边界词提取方法不考虑组件名称内部词性,具有较好的领域无关性,但是单纯以数字字符和限制数字左侧字符数量提取组件名称候选词,其提取结果的粒度较大,导致组件名称提取精度较低。基于统计的提取方法,主要统计组件名称的内部构词规律,进行词频、互信息、信息熵等统计量的计算。该方法能有效提取领域术语,但需要大量的语料进行训练,特征的选择对识别效果影响较大,难以完整地提取构词特征复杂的组件名称。为了进一步提高自动识别专利文献技术特征的效率和精度,自动识别其命名实体算法的研究具有十分重要的意义。

技术实现思路

[0004]本专利技术的目的是提供一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质,所述方法可以准确以及高效自动识别实体命名,尤其是用于解决机械领域的组件名称提取。
[0005]本专利技术提供的一种专利文本中组件命名自动提取方法,包括如下步骤:
[0006]S1:基于字频差值从专利文本中提取参考组件词,其中,以附图标记为右边界提取候选词,并基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词;
[0007]S2:提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边界词
库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词;
[0008]S3:基于所述组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称;
[0009]其中,选择性保留候选词为:保留字频差值大于字频差阈值的字符位置上字频最大的字符。
[0010]进一步优选,步骤S1和步骤S3分别对应一个字频差阈值,步骤S1中对应的字频差阈值为第一层的最优字频差阈值,获取过程为:
[0011]随机选取若干专利文本作为样本,以及获取专利文本中的组件名称并作为校对标准;
[0012]从0-1间隔m1设置系列字频差阈值,其中,m1的取值为经验值;
[0013]分别选用每个字频差阈值执行如下步骤A-D:
[0014]A:对所述专利文本进行预处理以及分词,然后以附图标记作为右边界提取候选词;
[0015]B:将同一附图标记下的候选词聚类并按字符位置排列,计算每个字符位置上各个字符的字频以及每个字符位置上的字频差;
[0016]其中,若某一字符的字频为1,设置其字频差为1;
[0017]C:将字频差为1的字符保留,并鉴别字符位置的字频差是否大于或等于选用的字频阈值,若大于,则保留对应字符位置上字频最大的字符;
[0018]D:将保留的字符按照原有位置排列组成得到所述附图标记下对应的组件名称;
[0019]基于校对标准计算各个字频差阈值下组件名称提取的可靠性,选择可靠性最高对应的字频差阈值作为步骤S1中的最优字频差阈值。
[0020]进一步优选,步骤S2中的左边界词库的构建过程如下:
[0021]提取专利文本中参考组件词的左侧词语;然后统计每个词语的词频;最后选择词频大于词频阈值的词语构建左边界词库。
[0022]进一步优选,步骤S1和步骤S3分别对应一个字频差阈值,步骤S2中的所述词频阈值为最优词频阈值,步骤S3中对应的字频差阈值为第二层的最优字频差阈值,其中,所述最优词频阈值以及第二层的最优字频差阈值的获取过程如下:
[0023]随机选取若干专利文本,并获取组件名称作为校对标准;
[0024]从0-0.0015间隔m2设置系列词频阈值,其中,m2的取值为经验值;
[0025]依次选用每个词频阈值执行如下步骤a-d:
[0026]a:按照步骤S1的方式处理专利文本获取到参考组件词,再按照权利要求3中左边界词库的构建方法构建每个词频阈值对应的左边界词库;
[0027]b:分别将各个左边界词库作为左边界以及附图标记作为右边界提取专利文本中每个词频阈值对应的组件候选词;
[0028]c:从0-1间隔m3设置系列字频差阈值,其中,m3的取值为经验值;
[0029]d:按照步骤S3的方式得到每个词频阈值以及每个字频差阈值对应的组件名称,并与对应的校对标准进行比对,选择出可靠性最高时对应的词频阈值以及字频差阈值作为最优词频阈值以及第二层的最优字频差阈值。
[0030]进一步优选,若步骤S1中对应的字频差阈值为第一层的最优字频差阈值,则获取
所述最优词频阈值以及第二层的最优字频差阈值时,步骤a中以第一层的最优字频差阈值作为字频差阈值得到参考组件词。
[0031]进一步优选,步骤d中可靠性是以调和平均数为标准,调和平均数越高,可靠性越高,所述调和平均数的计算公式如下:
[0032][0033]其中,F1调和平均数,P为正确率、R为召回率,且满足:
[0034][0035]式中,EC表示与校对标准匹配后统计出的提取正确的组件个数,E表示标准组件的个数,S为提取的组件个数。
[0036]进一步优选,任意字符位置上字符的字频按照如下公式计算:
[0037][0038]式中:CF为字符位置上字符的字频,CH-N为字符位置上字符出现的次数,CH-Z为字符位置上字符总数。
[0039]第二方面,本专利技术还提供一种基于所述专利文本中组件命名自动提取方法的系统,包括:
[0040]参考组件词获取模块:用于基于字频差值从专利文本中提取得到参考组件词;
[0041]组件候选词获取模块:用于提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专利文本中组件命名自动提取方法,其特征在于:包括如下步骤:S1:基于字频差值从专利文本中提取参考组件词,其中,以附图标记为右边界提取候选词,并基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词;S2:提取专利文本中参考组件词的左侧词语并构建左边界词库,然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词;S3:基于所述组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称;其中,选择性保留候选词为:保留字频差值大于字频差阈值的字符位置上字频最大的字符。2.根据权利要求1所述的方法,其特征在于:步骤S1和步骤S3分别对应一个字频差阈值,步骤S1中对应的字频差阈值为第一层的最优字频差阈值,获取过程为:随机选取若干专利文本作为样本,以及获取专利文本中的组件名称并作为校对标准;从0-1间隔m1设置系列字频差阈值;分别选用每个字频差阈值执行如下步骤A-D:A:对所述专利文本进行预处理以及分词,然后以附图标记作为右边界提取候选词;B:将同一附图标记下的候选词聚类并按字符位置排列,计算每个字符位置上各个字符的字频以及每个字符位置上的字频差;其中,若某一字符的字频为1,设置其字频差为1;C:将字频差为1的字符保留,并鉴别字符位置的字频差是否大于或等于选用的字频阈值,若大于,则保留对应字符位置上字频最大的字符;D:将保留的字符按照原有位置排列组成得到所述附图标记下对应的组件名称;基于校对标准计算各个字频差阈值下组件名称提取的可靠性,选择可靠性最高对应的字频差阈值作为步骤S1中的最优字频差阈值。3.根据权利要求1所述的方法,其特征在于:步骤S2中的左边界词库的构建过程如下:提取专利文本中参考组件词的左侧词语;然后统计每个词语的词频;最后选择词频大于词频阈值的词语构建左边界词库。4.根据权利要求3所述的方法,其特征在于:步骤S1和步骤S3分别对应一个字频差阈值,步骤S2中的所述词频阈值为最优词频阈值,步骤S3中对应的字频差阈值为第二层的最优字频差阈值,其中,所述最优词频阈值以及第二层的最优字频差阈值的获取过程如下:随机选取若干专利文本,并获取组件名称作为校对标准;从0-0.0015间...

【专利技术属性】
技术研发人员:孔嘉斌卜和蛰吕剑文杜文轩刘江南
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1