【技术实现步骤摘要】
搜索词纠错对构建方法、终端及存储介质
本专利技术涉及人工智能
,具体涉及一种搜索词纠错对构建方法、终端及存储介质。
技术介绍
搜索词纠错是自然语言处理的经典任务,在搜索任务中,对搜索词进行纠错可以提升搜索系统的召回指标,提升用户的搜索体验。搜索词纠错的算法一般通过获取纠错对的方式,通过检索获取、日志获取、平行语料对中抽取的方式。然而,当需要在狭窄搜索领域中进行搜索时,用户往往存在一个非常明确的搜索意图,搜索的目标领域多为专有名词,与通用的语料数据具有很大的差距。在狭窄搜索领域下,传统的搜索词纠错方案直接进行应用可能存在如下问题:难以直接获取平行语料对,垂直领域搜索时用户搜索的关键词短小,搜索人名时可能出现拼音、字形都无法完全匹配的情况,传统的通过语料构建难以获得有效的平行语料;在搜索日志不够完备的情况下,也无法通过日志抽取潜在的纠错对;狭窄领域下含有大量专有名词,分词算法分出的词汇,不足以作为纠错的基本单位;狭窄领域下的专有名词搜索场景下,需要对一些传统语义下没有错误的词语进行纠错。如在狭窄领域内,有一个专有人名卢伟,用户搜索芦苇一词时,虽然芦苇也是一个正确的词语,但在当前搜索场景下,仍然需要被纠错。因此,有必要提供一种针对狭窄搜索领域内的搜索词纠错对的获取方法,可以在无平行语料,无搜索日志的情况下,对各种专有名词,转义名词进行纠错,并保持纠错对构建的时效性。
技术实现思路
鉴于以上内容,有必要提出一种搜索词纠错对构建方法、终端及存储介质,能够从海量数据中构建出多个词语片段纠 ...
【技术保护点】
1.一种搜索词纠错对构建方法,其特征在于,所述方法包括:/n利用新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段;/n基于所述多个候选词语片段构建中文字形编辑距离树及构建中文拼音编辑距离树;/n获取用户历史搜索的多个文本数据,并利用所述新词发现算法确定出所述多个文本数据中的多个用户词语片段;/n针对每个用户词语片段,根据所述中文文字形编辑距离树及所述中文拼音编辑距离树查询出与所述用户词语片段对应的目标词语片段,并基于所述用户词语片段和所述目标词语片段构建多个词语片段纠错对;/n计算每一个用户词语片段对应的词语片段纠错对的纠错分值;/n基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型;/n通过所述第一纠错对打分模型和所述第二纠错对打分模型从所述多个词语片段纠错对中识别出多个目标词语片段纠错对。/n
【技术特征摘要】
1.一种搜索词纠错对构建方法,其特征在于,所述方法包括:
利用新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段;
基于所述多个候选词语片段构建中文字形编辑距离树及构建中文拼音编辑距离树;
获取用户历史搜索的多个文本数据,并利用所述新词发现算法确定出所述多个文本数据中的多个用户词语片段;
针对每个用户词语片段,根据所述中文文字形编辑距离树及所述中文拼音编辑距离树查询出与所述用户词语片段对应的目标词语片段,并基于所述用户词语片段和所述目标词语片段构建多个词语片段纠错对;
计算每一个用户词语片段对应的词语片段纠错对的纠错分值;
基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型;
通过所述第一纠错对打分模型和所述第二纠错对打分模型从所述多个词语片段纠错对中识别出多个目标词语片段纠错对。
2.如权利要求1所述的搜索词纠错对构建方法,其特征在于,所述基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型包括:
从所述多个词语片段纠错对中选取出第一预设数量的词语片段纠错对;
为所述第一预设数量的词语片段纠错对设置标识;
将所述第一预设数量的词语片段纠错对及对应的标识作为第一训练数据;
基于所述第一训练数据训练第一纠错对打分模型及训练第二纠错对打分模型;
从所述多个词语片段纠错对中选取出第二预设数量的词语片段纠错对输入至所述第一纠错对打分模型和第二纠错对打分模型中;
获取所述第一纠错对打分模型输出的第一预测纠错分值和所述第二纠错对打分模型输出的第二预测纠错分值;
计算所述第一预测纠错分值及对应的所述第二预测纠错分值之间的差值,并选取差值大于预设差值阈值的目标差值及获取所述目标差值对应的第一词语片段纠错对;
获取所述第一预测纠错分值及对应的所述第二预测纠错分值均小于预设分值阈值的第二词语片段纠错对;
将所述第一词语片段纠错对及所述第二词语片段纠错对添加至所述第一训练数据中得到第二训练数据,并基于所述第二训练数据重新训练所述第一纠错对打分模型和所述第二纠错对打分模型。
3.如权利要求2所述的搜索词纠错对构建方法,其特征在于,所述利用中文新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段包括:
利用新词发现算法计算出文本语料库中每个词语片段的左邻接熵、右邻接熵和凝固度;
分别比较每个词语片段的所述左邻接熵、所述右邻接熵和所述凝固度是否大于预设阈值;
筛选出左邻接熵、右邻接熵且凝固度均大于所述预设阈值的词语片段并将筛选出的词语片段作为候选词语片段。
4.如权利要求2所述的搜索词纠错对构建方法,其特征在于,所述基于所述候选词语片段构建中文字形编辑距离树包括:
随机选择一个候选词语片段作为中文字形编辑距离树的根节点;
计算其余任意一个候选词语片段与所述根节点处的...
【专利技术属性】
技术研发人员:王异秀,谭贤,邹若奇,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。