一种公司名简称识别方法及装置制造方法及图纸

技术编号：35175893 阅读：17 留言：0更新日期：2022-10-12 17:42

本发明专利技术公开了一种公司名简称识别方法及装置，本发明专利技术通过对提示词模型训练，并计算模型词表中全部字符的分布概率，记录每个预测字符在模型词表中的位置序号，然后通过构造待预测样本的候选词，基于模型词表中全部字符的分布概率，得到候选词中每个字符的概率，并计算对应候选词的概率均值，得到每个候选词的概率，获取最大概率对应的候选词在若干个候选词中的序号，并基于每个候选词及其中每个字符在原机构名中的位置序号，从原机构名中得到预测的简称作为结果。本发明专利技术对样本的需求量大大减少，准确率高，能够避免提示词模型中经常存在的穷举式建模计算量大的问题，并通过不连续候选词的选取，简单有效地处理了简称不连续问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
一种公司名简称识别方法及装置

[0001]本专利技术涉及名称识别领域，尤其涉及一种公司名简称识别方法及装置。

技术介绍

[0002]实体简称计算是一个实际生产场景中比较常见的问题，现有的方法基于关键词规则或序列标注模型实现，关键词规则不能对形式多样的实体名称穷举，序列标注的方法需要大量的样本，且不能很好的处理简称不连续的问题，本专利技术提出的方法基于提示词模型，效果具有很大提升，更好地处理简称不连续问题，且对样本的需求量大大减少。

技术实现思路

[0003]本专利技术目的在于针对现有技术的不足，提出一种公司名简称识别方法及装置。本专利技术基于提示词模型，提出了一种从多个候选简称中计算最优简称的流程，应用于机构名称、其他各类名称实体的简称计算，可计算生成连续、不连续的简称，且包含减少人工检查工作的过程，提出的生产流程能够在生产中大量减少人工操作。
[0004]本专利技术的目的是通过以下技术方案来实现的：第一方面，本专利技术提供了一种公司名简称识别方法，该方法包括以下步骤：（1）训练样本准备：获取多个机构名及对应简称的样本对构成训练集，简称作为标签字符，长度设为L；（2）基于训练集对提示词模型训练：将“机构名X[SEP]简称为[MASK]……
[MASK]”作为提示词模型输入，其中[MASK]对应位置为模型要预测的字符，字符数为L，[SEP]为模型词表中的特殊分隔符，机构名X用具体机构名代替；提示词模型输出为L个预测的字符，同时计算L个[MASK]位置上的模型词表中全部字符的分布概率，记录...

【技术保护点】

【技术特征摘要】
1.一种公司名简称识别方法，其特征在于，该方法包括以下步骤：（1）训练样本准备：获取多个机构名及对应简称的样本对构成训练集，简称作为标签字符，长度设为L；（2）基于训练集对提示词模型训练：将“机构名X[SEP]简称为[MASK]
……
[MASK]”作为提示词模型输入，其中[MASK]对应位置为模型要预测的字符，字符数为L，[SEP]为模型词表中的特殊分隔符，机构名X用具体机构名代替；提示词模型输出为L个预测的字符，并计算L个[MASK]位置上的模型词表中全部字符的分布概率，记录每个预测字符在模型词表中的位置序号，与训练集中的标签字符计算损失训练提示词模型；（3）获取待预测样本构建候选词：对于连续样本，从机构名第1个字符开始，对每个字符位置选取连续的2到L个字符，得到相应的候选词；对于不连续样本，基于分词工具构造分词栅格，通过在分词栅格上遍历得到相应的候选词；对每个待预测的样本，保存每个候选词及其中每个字符在原机构名中的位置序号；（4）简称识别：将待预测样本输入到提示词模型，计算待预测样本的L个[MASK]位置上的模型词表中全部字符的分布概率，并记录每个预测字符在模型词表中的位置序号，对于待预测样本的若干个候选词，找到每个候选词中每个字符在模型词表中的位置序号，并从分布概率中选取对应位置序号上的值，得到候选词中每个字符的概率，然后计算每个候选词的概率均值，得到每个候选词的概率，获取最大概率对应的候选词在若干个候选词中的序号，并基于每个候选词及其中每个字符在原机构名中的位置序号，从原机构名中得到预测的简称作为结果。2.根据权利要求1所述的一种公司名简称识别方法，其特征在于，步骤（1）中，对于机构名的简称，当训练样本中的简称长度小于L时，用#号补充到后面。3.根据权利要求2所述的一种公司名简...

【专利技术属性】
技术研发人员：韩瑞峰，杨红飞，金霞，程东，
申请(专利权)人：杭州费尔斯通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人