专业术语识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36538228 阅读:16 留言:0更新日期:2023-02-01 16:28
本申请涉及一种专业术语识别方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取待识别文档,并将待识别文档中的文本进行拆分,得到至少一个文本词;针对每个文本词,基于当前文本词在待识别文档中的频度、专业文本库中包含当前文本词的文档的第一文档数量以及专业文本库的文档总数量,确定当前文本词在待识别文档中的权重;在权重小于预设权重阈值的情况下,针对当前文本词中的每个文本字,获取当前文本字在专业文本库中依赖于前一个文本字的第一概率,以及当前文本字在非专业文本库中依赖于前一个文本字的第二概率;基于第一概率和第二概率,确定当前文本词是否为专业术语。采用本方法能够提高专业术语识别效率。效率。效率。

【技术实现步骤摘要】
专业术语识别方法、装置、计算机设备和存储介质


[0001]本申请涉及电力
,特别是涉及一种专业术语识别方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]在特高压直流输电领域有大量专业术语等待识别和挖掘,从海量的文本数据中识别并提取特高压直流输电领域专业术语,准确识别出来的专业术语可用于多种场合,例如作为检索关键词,供网络资产测绘引擎检索电力系统相关敏感信息是否泄漏于互联网。准确的专业术语是非结构化数据分析的基础,作用十分广泛。
[0003]目前的专业术语识别方法往往是基于规则的方法,采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词、中心词等方法,以模式和字符串相匹配为主要手段,这种方法大多依赖于知识库和词典的建立,同时这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言类型,特别容易产生错误,并且,对于不同的系统需要语言学专家重新书写规则,存在专业术语识别效率低的问题。

技术实现思路

[0004]基于此,有必要针对传统专业术语识别效率低的问题,提供一种能够提高专业术语识别效率的专业术语识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种专业术语识别方法。所述方法包括:
[0006]获取待识别文档,并将待识别文档中的文本进行拆分,得到至少一个文本词;每个文本词中包括至少一个文本字;
[0007]针对每个文本词,获取当前文本词在待识别文档中的频度、专业文本库中包含当前文本词的文档的第一文档数量以及专业文本库的文档总数量;基于频度、第一文档数量以及文档总数量,确定当前文本词在待识别文档中的权重;
[0008]在权重小于预设权重阈值的情况下,针对当前文本词中的每个文本字,获取当前文本字在专业文本库中依赖于前一个文本字的第一概率,以及当前文本字在非专业文本库中依赖于前一个文本字的第二概率;基于第一概率和第二概率,确定当前文本词是否为专业术语。
[0009]在其中一个实施例中,将待识别文档中的文本进行拆分,得到至少一个文本词,包括:
[0010]将待识别文档中的文本进行语句拆分,得到至少一条文本句;
[0011]针对每个文本句,获取当前文本句中文本字的字符数量,基于字符数量,将当前文本句进行词汇拆分,得到至少一个文本词。
[0012]在其中一个实施例中,基于频度、第一文档数量以及文档总数量,确定当前文本词
在待识别文档中的权重,包括:
[0013]将文档总数量除以第一文档数量,将得到的商的导数作为第一频率;
[0014]将频度与第一频率相乘,将得到的乘积确定为当前文本词在待识别文档中的权重。
[0015]在其中一个实施例中,获取当前文本词在待识别文档中的频度、专业文本库中包含当前文本词的文档的第一文档数量以及专业文本库的文档总数量,包括:
[0016]遍历黑名单文本库中的黑名单词汇,若当前文本词与每个黑名单词汇均不一致,则遍历专业文本库中的专业术语;
[0017]若当前文本词与每个专业术语均不一致,则获取当前文本词在待识别文档中的频度、专业文本库的文档中包含当前文本词的第一文档数量以及专业文本库的文档总数量。
[0018]在其中一个实施例中,基于第一概率和第二概率,确定当前文本词是否为专业术语,包括:
[0019]基于每个文本字对应的第一概率,计算当前文本词在专业文本库中的第三概率;
[0020]基于每个文本字对应的第二概率,计算当前文本词在非专业文本库中的第四概率;
[0021]若第三概率大于第四概率,且第三概率大于或者等于预设概率,则确定当前文本词为专业术语。
[0022]在其中一个实施例中,专业术语识别方法还包括:
[0023]在确定当前文本词为专业术语的情况下,将当前文本词添加到专业文本库,得到更新后的专业文本库。
[0024]第二方面,本申请还提供了一种专业术语识别装置。所述装置包括:
[0025]数据获取模块,用于获取待识别文档,并将待识别文档中的文本进行拆分,得到至少一个文本词;每个文本词中包括至少一个文本字;
[0026]权重获取模块,用于针对每个文本词,获取当前文本词在待识别文档中的频度、专业文本库中包含当前文本词的文档的第一文档数量以及专业文本库的文档总数量;基于频度、第一文档数量以及文档总数量,确定当前文本词在待识别文档中的权重;
[0027]确定模块,用于在权重小于预设权重阈值的情况下,针对当前文本词中的每个文本字,获取当前文本字在专业文本库中依赖于前一个文本字的第一概率,以及当前文本字在非专业文本库中依赖于前一个文本字的第二概率;基于第一概率和第二概率,确定当前文本词是否为专业术语。
[0028]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0029]获取待识别文档,并将待识别文档中的文本进行拆分,得到至少一个文本词;每个文本词中包括至少一个文本字;
[0030]针对每个文本词,获取当前文本词在待识别文档中的频度、专业文本库中包含当前文本词的文档的第一文档数量以及专业文本库的文档总数量;基于频度、第一文档数量以及文档总数量,确定当前文本词在待识别文档中的权重;
[0031]在权重小于预设权重阈值的情况下,针对当前文本词中的每个文本字,获取当前文本字在专业文本库中依赖于前一个文本字的第一概率,以及当前文本字在非专业文本库
中依赖于前一个文本字的第二概率;基于第一概率和第二概率,确定当前文本词是否为专业术语。
[0032]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0033]获取待识别文档,并将待识别文档中的文本进行拆分,得到至少一个文本词;每个文本词中包括至少一个文本字;
[0034]针对每个文本词,获取当前文本词在待识别文档中的频度、专业文本库中包含当前文本词的文档的第一文档数量以及专业文本库的文档总数量;基于频度、第一文档数量以及文档总数量,确定当前文本词在待识别文档中的权重;
[0035]在权重小于预设权重阈值的情况下,针对当前文本词中的每个文本字,获取当前文本字在专业文本库中依赖于前一个文本字的第一概率,以及当前文本字在非专业文本库中依赖于前一个文本字的第二概率;基于第一概率和第二概率,确定当前文本词是否为专业术语。
[0036]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0037]获取待识别文档,并将待识别文档中的文本进行拆分,得到至少一个文本词;每个文本词中包括至少一个文本字;
[0038]针对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专业术语识别方法,其特征在于,所述方法包括:获取待识别文档,并将所述待识别文档中的文本进行拆分,得到至少一个文本词;每个文本词中包括至少一个文本字;针对每个文本词,获取当前文本词在所述待识别文档中的频度、专业文本库中包含所述当前文本词的文档的第一文档数量以及所述专业文本库的文档总数量;基于所述频度、所述第一文档数量以及所述文档总数量,确定所述当前文本词在所述待识别文档中的权重;在所述权重小于预设权重阈值的情况下,针对当前文本词中的每个文本字,获取当前文本字在所述专业文本库中依赖于前一个文本字的第一概率,以及所述当前文本字在非专业文本库中依赖于前一个文本字的第二概率;基于所述第一概率和所述第二概率,确定所述当前文本词是否为专业术语。2.根据权利要求1所述的方法,其特征在于,所述将所述待识别文档中的文本进行拆分,得到至少一个文本词,包括:将所述待识别文档中的文本进行语句拆分,得到至少一条文本句;针对每个文本句,获取当前文本句中文本字的字符数量,基于所述字符数量,将所述当前文本句进行词汇拆分,得到至少一个文本词。3.根据权利要求1所述的方法,其特征在于,所述基于所述频度、所述第一文档数量以及所述文档总数量,确定所述当前文本词在所述待识别文档中的权重,包括:将所述文档总数量除以所述第一文档数量,将得到的商的导数作为第一频率;将所述频度与所述第一频率相乘,将得到的乘积确定为所述当前文本词在所述待识别文档中的权重。4.根据权利要求1所述的方法,其特征在于,所述获取当前文本词在所述待识别文档中的频度、专业文本库中包含所述当前文本词的文档的第一文档数量以及所述专业文本库的文档总数量,包括:遍历黑名单文本库中的黑名单词汇,若当前文本词与每个黑名单词汇均不一致,则遍历专业术语库中的专业术语;若所述当前文本词与每个专业术语均不一致,则获取所述当前文本词在所述待识别文档中的频度、专业文本库的文档中包含所述当前文本词的第一文档数量以及所述专业文本库的文档总数量。5....

【专利技术属性】
技术研发人员:李少森罗捷黎珏强邱桂尧杜浩滔孙豪黄剑湘李浩乔柱桥王宁陈图腾朱盛强王飞段春莹朱志俊李俊宇张哲黄昌钰袁鑫朱燕青任君
申请(专利权)人:中国南方电网有限责任公司超高压输电公司昆明局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1