检索名称的错别字纠正方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29703349 阅读:34 留言:0更新日期:2021-08-17 14:31
本申请实施例提供一种检索名称的错别字纠正方法、装置、电子设备和存储介质,通过获取初始检索名称,根据错别字位置模型和错别字类型模型,对初始检索名称进行处理,得到目标检索名称,错别字位置模型中包括各正确检索名称、意图检索名称及错误检索名称与错别字位置标签的映射关系,错别字类型模型中包括各错误检索名称与错别字类型标签的映射关系;根据目标检索名称进行检索,实现了对检索名称中错别字的智能纠错,提高了检索名称中错别字的纠错质量,提升了用户使用体验。

【技术实现步骤摘要】
检索名称的错别字纠正方法、装置、电子设备和存储介质
本申请实施例涉及语言处理
,尤其涉及一种检索名称的错别字纠正方法、装置、电子设备和存储介质。
技术介绍
目前,常规的机器翻译的方法已经成为文本纠错的主流技术,主要思想是把纠错看成同种语言中错误句子翻译为正确句子的过程,其核心由语言模型和翻译模型组成。语言模型学习语言规则、语言知识;翻译模型从平行语料中学习用户的纠错行为。但对于某些特殊领域的名称检索,如地理名称、书籍名称或歌曲名称等,由于很多名称在起名时为了凸显醒目和特别,并不严格遵循语言规则、语言知识,甚至故意使用违反语义习惯的字或非常用字,导致常规的语言模型在这些检索名称的纠错领域表现效果不佳,从而无法检索到用户想要的结果。
技术实现思路
本申请实施例提供一种检索名称的错别字纠正方法、装置、电子设备和存储介质,以解决现有技术中存在的对检索名称中的错别字的纠正效果不佳的问题。第一方面,本申请实施例提供一种检索名称的错别字纠正方法,包括:获取初始检索名称;根据错别字位置模型和错别字类型模型,对所述初始检索名称进行处理,得到目标检索名称,所述错别字位置模型中包括各正确检索名称、意图检索名称及错误检索名称与错别字位置标签的映射关系,所述错别字类型模型中包括各错误检索名称与错别字类型标签的映射关系;根据所述目标检索名称进行检索。可选地,所述错别字位置标签用于反映检索名称中首个错别字的位置序号,所述错别字类型标签用于反映所述错误检索名称中首个错别字的类型,所述根据错别字位置模型和错别字类型模型,对所述初始检索名称进行处理,得到目标检索名称,包括:采用错别字位置模型,对所述初始检索名称进行错别字位置推断,得到所述初始检索名称中错别字的第一位置标签;若所述第一位置标签不为0,则采用错别字类型模型,对所述初始检索名称进行错别字类型推断,得到所述初始检索名称中错别字的第一类型标签;根据所述第一位置标签和所述第一类型标签,对所述初始检索名称中错别字进行纠正,得到目标检索名称。可选地,所述根据所述第一位置标签和所述第一类型标签,对所述初始检索名称中错别字进行纠正,得到目标检索名称,包括:确定所述初始检索名称中第一位置标签对应的第一错别字;根据所述第一类型标签,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称;采用所述错别字位置模型,对所述至少一个候选检索名称进行错别字位置推断,得到所述至少一个候选检索名称的第二位置标签;筛选出所述第二位置标签与所述第一位置标签不同的有效检索名称;若所述有效检索名称的第二位置标签为0,则将所述有效检索名称确定为目标检索名称。可选地,所述方法还包括:若所述有效检索名称的第二位置标签不为0,则采用错别字类型模型,对所述有效检索名称进行错别字类型推断,得到所述有效检索名称中错别字的第二类型标签;根据所述第二位置标签和所述第二类型标签,对所述有效检索名称中错别字进行纠正,得到目标检索名称。可选地,所述错别字类型标签包括同音字标签和形近字标签,所述根据所述第一类型标签,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称,包括:若所述第一类型标签为同音字标签,则根据所述第一错别字的同音字字表,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称;若所述第一类型标签为形近字标签,则根据所述第一错别字的形近字字表,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称。可选地,所述方法还包括:若所述第一位置标签为0,则将所述初始检索名称确定为目标检索名称。可选地,所述根据错别字位置模型和错别字类型模型,对所述初始检索名称进行处理,得到目标检索名称之前,所述方法还包括:获取正确检索名称;对所述正确检索名称进行预处理,得到与各正确检索名称对应的意图检索名称和错误检索名称;根据所述正确检索名称、所述意图检索名称和所述错误检索名称,对预先构建的深度学习模型进行训练,得到所述错别字位置模型;根据所述错误检索名称,对预先构建的深度学习模型进行训练,得到所述错别字类型模型。可选地,所述根据所述正确检索名称、所述意图检索名称和所述错误检索名称,对预先构建的深度学习模型进行训练,得到所述错别字位置模型,包括:根据所述正确检索名称、所述意图检索名称和所述错误检索名称中错别字的位置,生成包括所述错误检索名称、所述正确检索名称、所述意图检索名称和错别字位置标签的第一训练数据集;采用所述第一训练数据集对所述深度学习模型进行训练,得到所述错别字位置模型。可选地,所述根据所述错误检索名称,对预先构建的深度学习模型进行训练,得到所述错别字类型模型,包括:根据所述错误检索名称中错别字的类型,生成包括所述错误检索名称和错别字类型标签的第二训练数据集;采用所述第二训练数据集对所述深度学习模型进行训练,得到所述错别字类型模型。可选地,所述对所述正确检索名称进行预处理,得到与各正确检索名称对应的意图检索名称及错误检索名称,包括:对所述正确检索名称进行分词处理,得到所述正确检索名称的分词集合;丢弃所述分词集合中的至少一个分词,对分词集合中的剩余的分词进行合并,得到意图检索名称;对所述正确检索名称和所述意图检索名称中的字进行同音字或形近字替换,得到所述错误检索名称。第二方面,本申请实施例提供一种检索名称的错别字纠正装置,包括:获取模块,用于获取初始检索名称;处理模块,用于根据错别字位置模型和错别字类型模型,对所述初始检索名称进行处理,得到目标检索名称,所述错别字位置模型中包括各正确检索名称、意图检索名称及错误检索名称与错别字位置标签的映射关系,所述错别字类型模型中包括各错误检索名称与错别字类型标签的映射关系;检索模块,用于根据所述目标检索名称进行检索。第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的检索名称的错别字纠正方法。第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的检索名称的错别字纠正方法。本申请实施例提供的检索名称的错别字纠正方法、装置、电子设备和存储介质,通过获取初始检索名称,根据错别字位置模型和错别字类型模型,对初始检索名称进行处理,得到目标检索名称,错别字位置模型中包括各正确检索名称、意图检索名称及错误检索名称与错别字位置标签的映射关系,错别字类型模型中包括各错误检索名称与错别字类型标签的映射关系;根据目标检索名称进行检索,实现了对检索名称中错别字的智能纠错,提高了检索名称中错别字的纠错质量,提升了用户使用体验。附图说明图1为本申请实施例提供的一种应用本文档来自技高网...

【技术保护点】
1.一种检索名称的错别字纠正方法,其特征在于,包括:/n获取初始检索名称;/n根据错别字位置模型和错别字类型模型,对所述初始检索名称进行处理,得到目标检索名称,所述错别字位置模型中包括各正确检索名称、意图检索名称及错误检索名称与错别字位置标签的映射关系,所述错别字类型模型中包括各错误检索名称与错别字类型标签的映射关系;/n根据所述目标检索名称进行检索。/n

【技术特征摘要】
1.一种检索名称的错别字纠正方法,其特征在于,包括:
获取初始检索名称;
根据错别字位置模型和错别字类型模型,对所述初始检索名称进行处理,得到目标检索名称,所述错别字位置模型中包括各正确检索名称、意图检索名称及错误检索名称与错别字位置标签的映射关系,所述错别字类型模型中包括各错误检索名称与错别字类型标签的映射关系;
根据所述目标检索名称进行检索。


2.根据权利要求1所述的方法,其特征在于,所述错别字位置标签用于反映检索名称中首个错别字的位置序号,所述错别字类型标签用于反映所述错误检索名称中首个错别字的类型,所述根据错别字位置模型和错别字类型模型,对所述初始检索名称进行处理,得到目标检索名称,包括:
采用错别字位置模型,对所述初始检索名称进行错别字位置推断,得到所述初始检索名称中错别字的第一位置标签;
若所述第一位置标签不为0,则采用错别字类型模型,对所述初始检索名称进行错别字类型推断,得到所述初始检索名称中错别字的第一类型标签;
根据所述第一位置标签和所述第一类型标签,对所述初始检索名称中错别字进行纠正,得到目标检索名称。


3.根据权利要求2所述的方法,其特征在于,所述根据所述第一位置标签和所述第一类型标签,对所述初始检索名称中错别字进行纠正,得到目标检索名称,包括:
确定所述初始检索名称中第一位置标签对应的第一错别字;
根据所述第一类型标签,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称;
采用所述错别字位置模型,对所述至少一个候选检索名称进行错别字位置推断,得到所述至少一个候选检索名称的第二位置标签;
筛选出所述第二位置标签与所述第一位置标签不同的有效检索名称;
若所述有效检索名称的第二位置标签为0,则将所述有效检索名称确定为目标检索名称。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述有效检索名称的第二位置标签不为0,则采用错别字类型模型,对所述有效检索名称进行错别字类型推断,得到所述有效检索名称中错别字的第二类型标签;
根据所述第二位置标签和所述第二类型标签,对所述有效检索名称中错别字进行纠正,得到目标检索名称。


5.根据权利要求3所述的方法,其特征在于,所述错别字类型标签包括同音字标签和形近字标签,所述根据所述第一类型标签,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称,包括:
若所述第一类型标签为同音字标签,则根据所述第一错别字的同音字字表,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称;
若所述第一类型标签为形近字标签,则根据所述第一错别字的形近字字表,对所述初始检索名称中的第一错别字进行替换,得到至少一个候选检索名称。


6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述第一位置标签为0,则将所述初始检...

【专利技术属性】
技术研发人员:王涛李根明肖健孙立野郑毅
申请(专利权)人:沈阳美行科技有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1