基于混合MASK的POI地址纠错方法、装置、存储介质和设备制造方法及图纸

技术编号:34789587 阅读:25 留言:0更新日期:2022-09-03 19:52
本发明专利技术提供一种基于混合MASK的POI地址纠错方法,包括:获取用户输入的POI地址信息;将POI地址信息通过映射转换为ID序列;判断是否对ID序列进行掩码;若是,以p1概率将ID序列中的一个字符替换为MASK,或以1

【技术实现步骤摘要】
基于混合MASK的POI地址纠错方法、装置、存储介质和设备


[0001]本专利技术涉及数据检索
,具体而言,本专利技术涉及一种基于混合MASK的POI地址纠错方法、装置、计算机可读存储介质和计算机设备。

技术介绍

[0002]检索召回是指对用户输入的查询信息进行全方面的意图理解,从多个角度挖掘查询信息中包含的关键数据信息,进而通过多路召回返回符合需求的结果,满足用户检索需求。当用户输入查询信息时,可能会由于手误打出了错别字,如果根据这个查询信息内容进行检索召回,那返回的内容可能就不满足用户的预期,当用户需求得不到满足时,会直接影响用户发单情况,因此需要进行中文纠错。在现有技术中,中文纠错主要采用以下几种方案:1、基于规则的中文字符纠错方法优点:可以直接根据中文语法的主谓关系、动宾关系、修饰关系、补充关系等,设计符合目的规则,根据中文分词结果匹配出错位位置短语;或者在某种特定场景下,设计一定的汉字组合规则即可覆盖大部分用户的搜索内容。
[0003]缺点:规则匹配方式较为粗暴,设计人员需要从历史数据中尽可能多的挖掘出用户输入的错误汉字,以此来设计出相应的规则来覆盖这些例子;与此同时,这种方式无法对未出现的状况进行解析,必须在出现问题后才能解决,不具有较好的泛化能力。
[0004]2、基于统计语言模型的中文纠错方法优点:统计语言模型的纠错方法是基于N

Gram语言模型实现的,模型通过统计字词之间例如2

gram、3

gram前后共同出现的频次来建立词表中的各个汉字之间的关系,这个分布真实,正确的词语PPL困惑度值较低,反之,错误的词(即存在错别字的词)PPL困惑度值较高,能够直接的根据历史数据核查用户输入的汉字中是否存在错别字。
[0005]缺点:基于统计语言模型的方式同样存在泛化能力较弱的问题,同时因为统计语言模型是基于N

Gram建模,当用户输入请求较长,即其是由多个词语构成的句子时,统计语言模型的打分的真实度就会降低,PPL困惑度分数就会存在异常。
[0006]3、基于seq2seq的中文纠错方法优点:seq2seq可采用RNN、LSTM等多种方式实现Encoder

Decoder的模型架构,模型根据大量的用户历史行为数据建模,神经网络中各层参数的非线性映射会激活在更多维空间内的潜在特征,从而更充分的理解用户意图,修正用户输入中存在的错误汉字,其具有较优的泛化能力。
[0007]缺点:模型将汉字转为对应向量时依赖于向量表示的准确性,向量所蕴含的语义影响后期向量之间的交互能力,较多依赖大量的人工标注好的数据;模型训练过程相对于其他方法代价较大,寻找一组相对完善的参数需要消耗更多的时间,不能鲁棒的预测未知的错误汉字。
[0008]因此,在地址信息检索召回应用场景中,亟需一种能够避免上述缺点的POI地址纠
错方法。

技术实现思路

[0009]为至少能解决上述的技术缺陷之一,本专利技术提供了以下技术方案的基于混合MASK的POI地址纠错方法及对应的装置、计算机可读存储介质和计算机设备。
[0010]本专利技术的实施例根据一个方面,提供了一种基于混合MASK的POI地址纠错方法,包括如下步骤:获取用户输入的POI地址信息;将所述POI地址信息通过映射转换为ID序列;判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1

p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
[0011]优选地,所述以1

p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为实体词语的概率为p2,包括:对于要将至少两个字符替换为MASK的ID序列,以1

p2概率将其中的任意两个字符替换为MASK,或以p2概率将其中的一个实体词语替换为MASK。
[0012]优选地,所述以p2概率将其中的一个实体词语替换为MASK,包括:对于要将其中的一个实体词语替换为MASK的ID序列,先确认该ID序列中要被替换为MASK的一个字符,判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语,若是,将包括该字符的实体词语替换为MASK,若否,将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。
[0013]优选地,所述预设POI地址词表通过以下步骤预先生成:获取历史用户检索POI地址信息时的历史使用数据;从所述历史使用数据中提取POI拼接字段;对所述POI拼接字段进行分词和词频统计,得到多个实体词语及对应的词频;根据所述词频大小排在前预设占比的实体词语,生成预设POI地址词表。
[0014]优选地,所述根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:获取城市信息编码;将所述城市信息编码与保持不变的ID序列或掩码后的ID序列进行拼接,得到拼接后的序列;根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
[0015]优选地,所述根据拼接后的序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息,包括:在拼接后的序列中,将掩码后的ID序列中被替换为MASK的字符替换为对应的预设字集,通过映射转换得到最终拼接序列;
将所述最终拼接序列输入预先训练生成的纠错模型,得到纠错后的POI地址信息。
[0016]优选地,所述纠错模型为基于多头注意力机制的BP神经网络模型。
[0017]此外,本专利技术的实施例根据另一个方面,提供了一种基于混合MASK的POI地址纠错装置,包括:地址信息获取模块,用于获取用户输入的POI地址信息;序列化模块,用于将所述POI地址信息通过映射转换为ID序列;混合MASK模块,用于判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1

p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;模型纠错模块,用于根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。
[0018]本专利技术的实施例根据又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于混合MASK的POI地址纠错方法。
[0019]本专利技术的实施例根据再一个方面,提供了一种计算机设备,所述计算机包括一个或多个处理器;存储器;一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合MASK的POI地址纠错方法,其特征在于,包括:获取用户输入的POI地址信息;将所述POI地址信息通过映射转换为ID序列;判断是否对所述ID序列进行掩码;若是,以p1概率将所述ID序列中的一个字符替换为MASK,或以1

p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为一个实体词语的概率为p2;若否,保持所述ID序列不变;根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的纠错模型,得到纠错后的POI地址信息。2.根据权利要求1所述的POI地址纠错方法,其特征在于,所述以1

p1概率将所述ID序列中的至少两个字符替换为MASK,其中所述至少两个字符为实体词语的概率为p2,包括:对于要将至少两个字符替换为MASK的ID序列,以1

p2概率将其中的任意两个字符替换为MASK,或以p2概率将其中的一个实体词语替换为MASK。3.根据权利要求2所述的POI地址纠错方法,其特征在于,所述以p2概率将其中的一个实体词语替换为MASK,包括:对于要将其中的一个实体词语替换为MASK的ID序列,先确认该ID序列中要被替换为MASK的一个字符,判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语,若是,将包括该字符的实体词语替换为MASK,若否,将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。4.根据权利要求3所述的POI地址纠错方法,其特征在于,所述预设POI地址词表通过以下步骤预先生成:获取历史用户检索POI地址信息时的历史使用数据;从所述历史使用数据中提取POI拼接字段;对所述POI拼接字段进行分词和词频统计,得到多个实体词语及对应的词频;根据所述词频大小排在前预设占比的实体词语,生成预设POI地址词表。5.根据权利要求1所述的POI地址纠错方法,其特征在于,所述根据保持不变的ID序列或掩码后的ID序列,并基于预先训练生成的...

【专利技术属性】
技术研发人员:孙迎雪赵骥
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1