一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质技术方案

技术编号：27395160 阅读：18 留言：0更新日期：2021-02-21 14:05

本发明专利技术公开了一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质，该方法包括：基于字频差值从专利文本中提取参考组件词，其中，以附图标记为右边界提取候选词，基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词；提取专利文本中参考组件词的左侧词语并构建左边界词库，以左边界词库作为左边界及附图标记作为右边界提取专利文本中的组件候选词；基于组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称；其中，保留字频差值大于字频差阈值的字符位置上字频最大的字符。本发明专利技术方法可以准确以及高效自动识别实体命名，尤其是用于解决机械领域的组件名称提取。组件名称提取。组件名称提取。

全部详细技术资料下载

【技术实现步骤摘要】
一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质

[0001]本专利技术属于自然语言处理
，具体涉及一种专利文本中组件命名自动提取方法、系统、终端以及可读存储介质。

技术介绍

[0002]高效、准确地从专利文本中提取机械系统组件信息，已成为自动获取专利技术方案至关重要的一环。系统组件属于技术方案的重要特征要素，在专利文献中表达为一种命名实体。目前，随着自然语言处理的发展和自动化获取知识需求的增加，从专利文本中自动识别命名实体已经受到广泛的关注。国内外许多研究者开展了相关的探索。文献1[陈秋瑗，程光，李迪，等.机械设计领域的命名实体识别研究.计算机工程与应用，2017，053(020)：100-104.]通过统计字符串之间紧密相邻程度等特征和定义不同词之间紧密相连的程度，从中文文本中识别机械领域的领域词，其调和平均数F1为83.89％。文献2[胡杰.机电产品创新设计的知识获取模型与重用方法研究.贵州：贵州大学，2018.]通过对中文专利中指定类型的组件名称进行词性标注，统计其内部词性规则，利用双向长短期记忆神经网络和条件随机场概率模型对机电产品9类命名实体进行了识别，其9类实体提取的综合调和平均数F1为83.78％。
[0003]上述基于规则、统计或者两者结合的方法，需要建立组件名称内部构词特征的模板、构建组件名称边界词和制定统计方法。然而，机械领域专利文本中的命名实体构词规律复杂，难以构建统一的组件名称词性模板。利用组件名称边界词提取方法不考虑组件名称内部词性，具有较好的领域无关性，但是单...

【技术保护点】

【技术特征摘要】
1.一种专利文本中组件命名自动提取方法，其特征在于：包括如下步骤：S1：基于字频差值从专利文本中提取参考组件词，其中，以附图标记为右边界提取候选词，并基于同一附图标记下所有候选词中每个字符位置上各个字符的字频差值选择性保留候选词得到参考组件词；S2：提取专利文本中参考组件词的左侧词语并构建左边界词库，然后以左边界词库作为左边界以及附图标记作为右边界提取专利文本中的组件候选词；S3：基于所述组件候选词中各个字符位置上的字频差值选择性保留候选词得到组件名称；其中，选择性保留候选词为：保留字频差值大于字频差阈值的字符位置上字频最大的字符。2.根据权利要求1所述的方法，其特征在于：步骤S1和步骤S3分别对应一个字频差阈值，步骤S1中对应的字频差阈值为第一层的最优字频差阈值，获取过程为：随机选取若干专利文本作为样本，以及获取专利文本中的组件名称并作为校对标准；从0-1间隔m1设置系列字频差阈值；分别选用每个字频差阈值执行如下步骤A-D：A：对所述专利文本进行预处理以及分词，然后以附图标记作为右边界提取候选词；B：将同一附图标记下的候选词聚类并按字符位置排列，计算每个字符位置上各个字符的字频以及每个字符位置上的字频差；其中，若某一字符的字频为1，设置其字频差为1；C：将字频差为1的字符保留，并鉴别字符位置的字频差是否大于或等于选用的字频阈值，若大于，则保留对应字符位置上字频最大的字符；D：将保留的字符按照原有位置排列组成得到所述附图标记下对应的组件名称；基于校对标准计算各个字频差阈值下组件名称提取的可靠性，选择可靠性最高对应的字频差阈值作为步骤S1中的最优字频差阈值。3.根据权利要求1所述的方法，其特征在于：步骤S2中的左边界词库的构建过程如下：提取专利文本中参考组件词的左侧词语；然后统计每个词语的词频；最后选择词频大于词频阈值的词语构建左边界词库。4.根据权利要求3所述的方法，其特征在于：步骤S1和步骤S3分别对应一个字频差阈值，步骤S2中的所述词频阈值为最优词频阈值，步骤S3中对应的字频差阈值为第二层的最优字频差阈值，其中，所述最优词频阈值以及第二层的最优字频差阈值的获取过程如下：随机选取若干专利文本，并获取组件名称作为校对标准；从0-0.0015间...

【专利技术属性】
技术研发人员：孔嘉斌，卜和蛰，吕剑文，杜文轩，刘江南，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人