别名生成方法、装置和设备制造方法及图纸

技术编号:24576540 阅读:33 留言:0更新日期:2020-06-21 00:27
本发明专利技术公开了一种别名生成方法、装置和设备。本发明专利技术的核心构思在于提出一种从命名实体的原始名称中向内挖掘信息并扩展输出结果的别名生成方案,具体是对原始名称及其构词成分进行融合,输入别名生成模型以获得别名结果,并在模型的解码过程进行多种可能性的扩展。由于融合了命名实体的构词成分,这样便可以充分利用原始名称所蕴含的信息,一方面可以提升别名生成模型的学习能力,另一方面不必受限于相关文本信息的规模,更无需仅从外部数据挖掘相关信息,由此可以提高所生成别名的针对性及准确性,也使别名生成模型的可靠性得到善;同时,本发明专利技术提出对别名生成模型进行多输出扩展,这样更加符合实际场景中命名实体包含多个别名的现实需求。

Alias generation methods, devices, and devices

【技术实现步骤摘要】
别名生成方法、装置和设备
本专利技术涉及自然语言处理技术,尤其涉及一种别名生成方法、装置和设备。
技术介绍
简称,顾名思义,是指一个实体名称的简写,例如中国科学技术大学可以简写为中国科大、中科大等,而别名则是比简称范围更大的概念,即别名包含了从命名实体的名称中抽取的简称,同时也包含了根据说法习惯、命名实体特点或外文名称等自定义的称谓,比如科大讯飞股份有限公司可能的别名包括科大讯飞、讯飞、iflytek、讯飞集团等。当前在生成简称或别名的现有方案中,均需要结合大量的相关文本信息,即对于数据规模提出了较为苛刻的要求,尤其需要从命名实体本身之外挖掘相关信息,这样更会影响最终得到的别名的准确性。
技术实现思路
鉴于此,本专利技术提供了一种别名生成方法、装置和设备,本专利技术还相应提供了一种计算机程序产品,通过以上形式,能够提供更为准确的多样化的别名生成结果。关于上述本专利技术采用的技术方案具体如下:第一方面,本专利技术提供了一种别名生成方法,包括:利用预设的序列标注策略对命名实体的原始名称进行解析,得本文档来自技高网...

【技术保护点】
1.一种别名生成方法,其特征在于,包括:/n利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分;/n将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入;/n对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名。/n

【技术特征摘要】
1.一种别名生成方法,其特征在于,包括:
利用预设的序列标注策略对命名实体的原始名称进行解析,得到所述原始名称的构词成分;
将所述构词成分与所述原始名称融合,并作为预先构建的具有编解码结构的别名生成模型的输入;
对所述别名生成模型的解码结果进行扩展,生成所述命名实体的多个别名。


2.根据权利要求1所述的别名生成方法,其特征在于,所述别名生成模型的解码结果包括:
基于预设的先验字符集解码得到的简称类别名和/或自定义类别名;其中所述自定义类别名含有所述原始名称之外的字符。


3.根据权利要求2所述的别名生成方法,其特征在于,所述先验字符集用于在所述别名生成模型的解码过程中,提升所述先验字符集内所含字符的输出概率。


4.根据权利要求1所述的别名生成方法,其特征在于,所述对所述别名生成模型的解码结果进行扩展包括:在所述别名生成模型的测试阶段,利用集束搜索扩展解码结果的数量。


5.根据权利要求1所述的别名生成方法,其特征在于,所述方法还包括:
利用所述序列标注策略对生成的多个别名进行合理性校验;
校验后筛选出最终的别名结果。


6.根据权利要求1~5任一项所述的别名生成方法,...

【专利技术属性】
技术研发人员:张浩宇吴飞方四安徐承
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1