一种公司名简称识别方法及装置制造方法及图纸

技术编号:35175893 阅读:17 留言:0更新日期:2022-10-12 17:42
本发明专利技术公开了一种公司名简称识别方法及装置,本发明专利技术通过对提示词模型训练,并计算模型词表中全部字符的分布概率,记录每个预测字符在模型词表中的位置序号,然后通过构造待预测样本的候选词,基于模型词表中全部字符的分布概率,得到候选词中每个字符的概率,并计算对应候选词的概率均值,得到每个候选词的概率,获取最大概率对应的候选词在若干个候选词中的序号,并基于每个候选词及其中每个字符在原机构名中的位置序号,从原机构名中得到预测的简称作为结果。本发明专利技术对样本的需求量大大减少,准确率高,能够避免提示词模型中经常存在的穷举式建模计算量大的问题,并通过不连续候选词的选取,简单有效地处理了简称不连续问题。题。题。

【技术实现步骤摘要】
一种公司名简称识别方法及装置


[0001]本专利技术涉及名称识别领域,尤其涉及一种公司名简称识别方法及装置。

技术介绍

[0002]实体简称计算是一个实际生产场景中比较常见的问题,现有的方法基于关键词规则或序列标注模型实现,关键词规则不能对形式多样的实体名称穷举,序列标注的方法需要大量的样本,且不能很好的处理简称不连续的问题,本专利技术提出的方法基于提示词模型,效果具有很大提升,更好地处理简称不连续问题,且对样本的需求量大大减少。

技术实现思路

[0003]本专利技术目的在于针对现有技术的不足,提出一种公司名简称识别方法及装置。本专利技术基于提示词模型,提出了一种从多个候选简称中计算最优简称的流程,应用于机构名称、其他各类名称实体的简称计算,可计算生成连续、不连续的简称,且包含减少人工检查工作的过程,提出的生产流程能够在生产中大量减少人工操作。
[0004]本专利技术的目的是通过以下技术方案来实现的:第一方面,本专利技术提供了一种公司名简称识别方法,该方法包括以下步骤:(1)训练样本准备:获取多个机构名及对应简称的样本对构成训练集,简称作为标签字符,长度设为L;(2)基于训练集对提示词模型训练:将“机构名X[SEP]简称为[MASK]……
[MASK]”作为提示词模型输入,其中[MASK]对应位置为模型要预测的字符,字符数为L,[SEP]为模型词表中的特殊分隔符,机构名X用具体机构名代替;提示词模型输出为L个预测的字符,同时计算L个[MASK]位置上的模型词表中全部字符的分布概率,记录每个预测字符在模型词表中的位置序号,与训练集中的标签字符计算损失训练提示词模型;(3)获取待预测样本构建候选词:对于连续样本,从机构名第1个字符开始,对每个字符位置选取连续的2到L个字符,得到相应的候选词;对于不连续样本,基于分词工具构造分词栅格,通过在分词栅格上遍历得到相应的候选词;对每个待预测的样本,保存每个候选词及其中每个字符在原机构名中的位置序号;(4)简称识别:对于待预测样本的若干个候选词,找到每个候选词中每个字符在模型词表中的位置序号,并从分布概率中选取对应位置序号上的值,得到候选词中每个字符的概率,然后计算每个候选词的概率均值,得到每个候选词的概率,获取最大概率对应的候选词在若干个候选词中的序号,并基于每个候选词及其中每个字符在原机构名中的位置序号,从原机构名中得到预测的简称作为结果。
[0005]进一步地,步骤(1)中,对于机构名的简称,当训练样本中的简称长度小于L时,用#号补充到后面。
[0006]进一步地,对于包含英文的简称,其长度为符号化后的长度,即word

piece的个数。
[0007]进一步地,步骤(2)中,在提示词模型训练过程中,对每个训练样本,利用[MASK]位置上得到的模型词表中全部字符的分布概率、训练集中的标签字符在模型词表中的位置序号,计算交叉熵损失,来回传调节模型参数。
[0008]进一步地,步骤(3)中,待预测样本的候选词需要进行筛选,对于英文候选词,当候选词之后的word

piece为一个单词的后半段时,弃用该候选词;当候选词符号化后的长度大于最大长度或小于2时,弃用该候选词;当候选词中包含标点符号时,弃用该候选词。
[0009]进一步地,步骤(3)中,对于不连续样本,设置取值范围,得到以每个分词结点开始的连续的取值范围内的若干个分词ngram,对得到的分词ngram,取第1个和最后1个分词、第1个和最后2个分词、前2个分词与最后1个分词,分别作为候选词。
[0010]进一步地,对于不连续样本的每个分词,如果字符数大于1,取前1个字与前2个字,分别替换原分词。
[0011]第二方面,本专利技术提供了一种公司名简称识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,用于实现所述的公司名简称识别方法的步骤。
[0012]第三方面,本专利技术提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的公司名简称识别方法的步骤。
[0013]本专利技术的有益效果:本专利技术提出的方法基于提示词模型,对样本的需求量大大减少,准确率高,同时对多个候选词计算概率并选取最大概率简称,不存在提示词模型中经常存在的穷举式建模计算量大的问题。通过不连续候选词的选取,简单有效地处理了简称不连续问题。
附图说明
[0014]图1为本专利技术提供的一种公司名简称识别方法的流程图。
[0015]图2为本专利技术简称识别步骤的具体流程图。
[0016]图3为本专利技术提供的一种公司名简称识别装置的结构图。
具体实施方式
[0017]以下结合附图对本专利技术具体实施方式作进一步详细说明。
[0018]如图1所示,本专利技术基于提示词模型,从多个候选简称中计算最优实体简称。本专利技术提供的一种公司名简称识别方法,具体过程如下:1.训练样本准备训练样本为多个机构名及对应简称的样本对,构成训练集,简称作为标签字符,如“杭州费尔斯通科技有限公司”与“费尔斯通”构成的样本对,前者为模型输入,后者为输出。
[0019]对于机构名的简称,设定简称最大长度为L=5,当样本中的简称长度小于L时,用#号补充到后面,如“费尔斯通#”。对于包含英文的简称,其长度为符号化后的长度,即word

piece的个数,如“COMLAB”的word

piece为“COM”“##LAB”,长度为2,补充后的简称为“COMLAB##”。
[0020]2.模型训练利用提示词方法,将“机构名X[SEP]简称为[MASK][MASK][MASK][MASK][MASK]”作
为prompt提示词模型输入,其中[MASK]对应位置为prompt提示词模型要预测的字符,[SEP]为模型词表中的特殊分隔符,机构名X用具体机构名代替。
[0021]在训练过程中,对每个训练样本,通过获取每个[MASK]位置上的标签字符的分布概率,得到计算损失,即利用[MASK]位置上得到的模型词表中全部字符的分布概率、标签字符在模型词表中的位置序号,计算交叉熵损失,来回传调节模型参数。
[0022]3.预测样本准备候选词的构建:连续样本:设定最大取值范围MAX_LEN,从机构名第1个字符开始,对每个字符位置连续选取2到L个字(中文)或word

piece(英文),得到相应的候选词,直到第MAX_LEN个字符。
[0023]候选词筛选:对英文候选词,当候选词之后的word

piece为一个单词的后半段时,即以“##”开始的word

piece,弃用该候选词。当候选词符号化后的长度大于MAX_LEN或小于2时,弃用该候选词。当候选词中包含标点符号时,弃用该候选词。
[0024]不连续样本:结合分词工具,构造分词栅格,通过在分词栅格上遍历,设置取值范围N=5,得到以每个分词结点开始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种公司名简称识别方法,其特征在于,该方法包括以下步骤:(1)训练样本准备:获取多个机构名及对应简称的样本对构成训练集,简称作为标签字符,长度设为L;(2)基于训练集对提示词模型训练:将“机构名X[SEP]简称为[MASK]
……
[MASK]”作为提示词模型输入,其中[MASK]对应位置为模型要预测的字符,字符数为L,[SEP]为模型词表中的特殊分隔符,机构名X用具体机构名代替;提示词模型输出为L个预测的字符,并计算L个[MASK]位置上的模型词表中全部字符的分布概率,记录每个预测字符在模型词表中的位置序号,与训练集中的标签字符计算损失训练提示词模型;(3)获取待预测样本构建候选词:对于连续样本,从机构名第1个字符开始,对每个字符位置选取连续的2到L个字符,得到相应的候选词;对于不连续样本,基于分词工具构造分词栅格,通过在分词栅格上遍历得到相应的候选词;对每个待预测的样本,保存每个候选词及其中每个字符在原机构名中的位置序号;(4)简称识别:将待预测样本输入到提示词模型,计算待预测样本的L个[MASK]位置上的模型词表中全部字符的分布概率,并记录每个预测字符在模型词表中的位置序号,对于待预测样本的若干个候选词,找到每个候选词中每个字符在模型词表中的位置序号,并从分布概率中选取对应位置序号上的值,得到候选词中每个字符的概率,然后计算每个候选词的概率均值,得到每个候选词的概率,获取最大概率对应的候选词在若干个候选词中的序号,并基于每个候选词及其中每个字符在原机构名中的位置序号,从原机构名中得到预测的简称作为结果。2.根据权利要求1所述的一种公司名简称识别方法,其特征在于,步骤(1)中,对于机构名的简称,当训练样本中的简称长度小于L时,用#号补充到后面。3.根据权利要求2所述的一种公司名简...

【专利技术属性】
技术研发人员:韩瑞峰杨红飞金霞程东
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1