基于混合MASK的POI地址纠错方法、装置、存储介质和设备制造方法及图纸

技术编号：34789587 阅读：25 留言：0更新日期：2022-09-03 19:52

本发明专利技术提供一种基于混合MASK的POI地址纠错方法，包括：获取用户输入的POI地址信息；将POI地址信息通过映射转换为ID序列；判断是否对ID序列进行掩码；若是，以p1概率将ID序列中的一个字符替换为MASK，或以1

全部详细技术资料下载

【技术实现步骤摘要】
基于混合MASK的POI地址纠错方法、装置、存储介质和设备

[0001]本专利技术涉及数据检索
，具体而言，本专利技术涉及一种基于混合MASK的POI地址纠错方法、装置、计算机可读存储介质和计算机设备。

技术介绍

[0002]检索召回是指对用户输入的查询信息进行全方面的意图理解，从多个角度挖掘查询信息中包含的关键数据信息，进而通过多路召回返回符合需求的结果，满足用户检索需求。当用户输入查询信息时，可能会由于手误打出了错别字，如果根据这个查询信息内容进行检索召回，那返回的内容可能就不满足用户的预期，当用户需求得不到满足时，会直接影响用户发单情况，因此需要进行中文纠错。在现有技术中，中文纠错主要采用以下几种方案：1、基于规则的中文字符纠错方法优点：可以直接根据中文语法的主谓关系、动宾关系、修饰关系、补充关系等，设计符合目的规则，根据中文分词结果匹配出错位位置短语；或者在某种特定场景下，设计一定的汉字组合规则即可覆盖大部分用户的搜索内容。
[0003]缺点：规则匹配方式较为粗暴，设计人员需要从历史数据中尽可能多的挖掘出用户输入的错误汉字，以此来设计出相应的规则来覆盖这些例子；与此同时，这种方式无法对未出现的状况进行解析，必须在出现问题后才能解决，不具有较好的泛化能力。
[0004]2、基于统计语言模型的中文纠错方法优点：统计语言模型的纠错方法是基于N
‑
Gram语言模型实现的，模型通过统计字词之间例如2
‑
gram、3
‑
gram前后共同出现的频次...

【技术保护点】

【技术特征摘要】
1.一种基于混合MASK的POI地址纠错方法，其特征在于，包括：获取用户输入的POI地址信息；将所述POI地址信息通过映射转换为ID序列；判断是否对所述ID序列进行掩码；若是，以p1概率将所述ID序列中的一个字符替换为MASK，或以1
‑
p1概率将所述ID序列中的至少两个字符替换为MASK，其中所述至少两个字符为一个实体词语的概率为p2；若否，保持所述ID序列不变；根据保持不变的ID序列或掩码后的ID序列，并基于预先训练生成的纠错模型，得到纠错后的POI地址信息。2.根据权利要求1所述的POI地址纠错方法，其特征在于，所述以1
‑
p1概率将所述ID序列中的至少两个字符替换为MASK，其中所述至少两个字符为实体词语的概率为p2，包括：对于要将至少两个字符替换为MASK的ID序列，以1
‑
p2概率将其中的任意两个字符替换为MASK，或以p2概率将其中的一个实体词语替换为MASK。3.根据权利要求2所述的POI地址纠错方法，其特征在于，所述以p2概率将其中的一个实体词语替换为MASK，包括：对于要将其中的一个实体词语替换为MASK的ID序列，先确认该ID序列中要被替换为MASK的一个字符，判断该字符与其前后两位字符中是否存在与预设POI地址词表匹配的实体词语，若是，将包括该字符的实体词语替换为MASK，若否，将该字符与其前一位字符或该字符与其后一位字符所构成的词语作为实体词语替换为MASK。4.根据权利要求3所述的POI地址纠错方法，其特征在于，所述预设POI地址词表通过以下步骤预先生成：获取历史用户检索POI地址信息时的历史使用数据；从所述历史使用数据中提取POI拼接字段；对所述POI拼接字段进行分词和词频统计，得到多个实体词语及对应的词频；根据所述词频大小排在前预设占比的实体词语，生成预设POI地址词表。5.根据权利要求1所述的POI地址纠错方法，其特征在于，所述根据保持不变的ID序列或掩码后的ID序列，并基于预先训练生成的...

【专利技术属性】
技术研发人员：孙迎雪，赵骥，
申请(专利权)人：深圳依时货拉拉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人