搜索词纠错对构建方法、终端及存储介质技术

技术编号:26032759 阅读:15 留言:0更新日期:2020-10-23 21:10
本发明专利技术涉及人工智能技术领域,提供一种搜索词纠错对构建方法、终端及存储介质,包括:基于从文本语料库中筛选出的多个候选词语片段构建两颗编辑距离树;获取用户历史搜索的多个文本数据中的多个用户词语片段;针对每个用户词语片段,根据两颗编辑距离树查询出对应的目标词语片段,基于用户词语片段和目标词语片段构建多个词语片段纠错对及计算纠错分值;基于多个词语片段纠错对及纠错分值训练两个纠错对打分模型,从而从多个词语片段纠错对中识别出多个目标词语片段纠错对。本发明专利技术能够从海量数据中构建出多个词语片段纠错对,提高搜索效率。此外,本发明专利技术还涉及区块链技术领域,多个目标词语片段纠错对存储于区块链中。

【技术实现步骤摘要】
搜索词纠错对构建方法、终端及存储介质
本专利技术涉及人工智能
,具体涉及一种搜索词纠错对构建方法、终端及存储介质。
技术介绍
搜索词纠错是自然语言处理的经典任务,在搜索任务中,对搜索词进行纠错可以提升搜索系统的召回指标,提升用户的搜索体验。搜索词纠错的算法一般通过获取纠错对的方式,通过检索获取、日志获取、平行语料对中抽取的方式。然而,当需要在狭窄搜索领域中进行搜索时,用户往往存在一个非常明确的搜索意图,搜索的目标领域多为专有名词,与通用的语料数据具有很大的差距。在狭窄搜索领域下,传统的搜索词纠错方案直接进行应用可能存在如下问题:难以直接获取平行语料对,垂直领域搜索时用户搜索的关键词短小,搜索人名时可能出现拼音、字形都无法完全匹配的情况,传统的通过语料构建难以获得有效的平行语料;在搜索日志不够完备的情况下,也无法通过日志抽取潜在的纠错对;狭窄领域下含有大量专有名词,分词算法分出的词汇,不足以作为纠错的基本单位;狭窄领域下的专有名词搜索场景下,需要对一些传统语义下没有错误的词语进行纠错。如在狭窄领域内,有一个专有人名卢伟,用户搜索芦苇一词时,虽然芦苇也是一个正确的词语,但在当前搜索场景下,仍然需要被纠错。因此,有必要提供一种针对狭窄搜索领域内的搜索词纠错对的获取方法,可以在无平行语料,无搜索日志的情况下,对各种专有名词,转义名词进行纠错,并保持纠错对构建的时效性。
技术实现思路
鉴于以上内容,有必要提出一种搜索词纠错对构建方法、终端及存储介质,能够从海量数据中构建出多个词语片段纠错对,提高搜索效率。本专利技术的第一方面提供一种搜索词纠错对构建方法,所述方法包括:利用新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段;基于所述多个候选词语片段构建中文字形编辑距离树及构建中文拼音编辑距离树;获取用户历史搜索的多个文本数据,并利用所述新词发现算法确定出所述多个文本数据中的多个用户词语片段;针对每个用户词语片段,根据所述中文文字形编辑距离树及所述中文拼音编辑距离树查询出与所述用户词语片段对应的目标词语片段,并基于所述用户词语片段和所述目标词语片段构建多个词语片段纠错对;计算每一个用户词语片段对应的词语片段纠错对的纠错分值;基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型;通过所述第一纠错对打分模型和所述第二纠错对打分模型从所述多个词语片段纠错对中识别出多个目标词语片段纠错对。根据本专利技术的一个可选的实施例,所述基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型包括:从所述多个词语片段纠错对中选取出第一预设数量的词语片段纠错对;为所述第一预设数量的词语片段纠错对设置标识;将所述第一预设数量的词语片段纠错对及对应的标识作为第一训练数据;基于所述第一训练数据训练第一纠错对打分模型及训练第二纠错对打分模型;从所述多个词语片段纠错对中选取出第二预设数量的词语片段纠错对输入至所述第一纠错对打分模型和第二纠错对打分模型中;获取所述第一纠错对打分模型输出的第一预测纠错分值和所述第二纠错对打分模型输出的第二预测纠错分值;计算所述第一预测纠错分值及对应的所述第二预测纠错分值之间的差值,并选取差值大于预设差值阈值的目标差值及获取所述目标差值对应的第一词语片段纠错对;获取所述第一预测纠错分值及对应的所述第二预测纠错分值均小于预设分值阈值的第二词语片段纠错对;将所述第一词语片段纠错对及所述第二词语片段纠错对添加至所述第一训练数据中得到第二训练数据,并基于所述第二训练数据重新训练所述第一纠错对打分模型和所述第二纠错对打分模型。根据本专利技术的一个可选的实施例,所述利用中文新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段包括:利用新词发现算法计算出文本语料库中每个词语片段的左邻接熵、右邻接熵和凝固度;分别比较每个词语片段的所述左邻接熵、所述右邻接熵和所述凝固度是否大于预设阈值;筛选出左邻接熵、右邻接熵且凝固度均大于所述预设阈值的词语片段并将筛选出的词语片段作为候选词语片段。根据本专利技术的一个可选的实施例,所述基于所述候选词语片段构建中文字形编辑距离树包括:随机选择一个候选词语片段作为中文字形编辑距离树的根节点;计算其余任意一个候选词语片段与所述根节点处的候选词语片段之间的编辑距离;判断是否存在与所述编辑距离相同的子节点;当判断存在与所述编辑距离相同的子节点时,将所述子节点作为父节点并将所述其余候选词语片段作为所述父节点的子节点;当判断不存在与所述编辑距离相同的子节点时,将所述根节点作为父节点并将所述其余候选词语片段作为所述父节点的子节点,其中,所述父节点处的候选词语片段与对应的所述子节点处的候选词语片段之间的编辑距离作为所述父节点与所述子节点之间的边的权重。根据本专利技术的一个可选的实施例,所述根据所述中文文字形编辑距离树及所述中文拼音编辑距离树查询出与所述用户词语片段对应的目标词语片段包括:遍历所述多个候选词语片段并查询所述多个候选词语片段中是否存在与所述用户词语片段相同的目标词语片段;当查询不存在与所述用户词语片段相同的目标词语片段时,从所述中文字形编辑距离树查询出与所述用户词语片段的编辑距离小于预设编辑距离阈值的目标词语片段,及从所述中文拼音编辑距离树查询出与所述用户词语片段的拼音的编辑距离小于预设编辑距离阈值的目标词语片段。根据本专利技术的一个可选的实施例,所述计算每一个用户词语片段对应的词语片段纠错对的纠错分值包括:针对每一个用户词语片段,调用动态规划算法根据所述中文字形编辑距离树和所述中文拼音编辑距离树获取出每一个词语片段纠错对的最优纠错路径;根据多个预设规则计算出最优纠错路径上的每个目标词语片段的多个特征;计算每个特征与对应的预设分值得到纠错分值。根据本专利技术的一个可选的实施例,所述调用所述第一纠错对打分模型和所述第二纠错对打分模型从所述多个词语片段纠错对中识别出目标词语片段纠错对包括:调用所述第一纠错对打分模型识别未打标识的词语片段纠错对的第一纠错分值;调用所述第二纠错对打分模型识别未打标识的词语片段纠错对的第二纠错分值;计算所述第一纠错分值与所述第二纠错分值的平均纠错分值,并将平均纠错分值最高的词语纠错片段作为所述用户词语片段对应的目标词语片段纠错对。根据本专利技术的一个可选的实施例,所述方法还包括:接收用户的搜索请求,所述搜索请求中携带有搜索词语片段;将所述搜索词语片段与所述多个目标词语片段纠错对中的用户词语片段进行匹配,并在匹配成功时获取所述多个目标词语片段纠错对中的所述用户词语片段对应的目标词语片段;以获取的目标词语片段为搜索关键词本文档来自技高网...

【技术保护点】
1.一种搜索词纠错对构建方法,其特征在于,所述方法包括:/n利用新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段;/n基于所述多个候选词语片段构建中文字形编辑距离树及构建中文拼音编辑距离树;/n获取用户历史搜索的多个文本数据,并利用所述新词发现算法确定出所述多个文本数据中的多个用户词语片段;/n针对每个用户词语片段,根据所述中文文字形编辑距离树及所述中文拼音编辑距离树查询出与所述用户词语片段对应的目标词语片段,并基于所述用户词语片段和所述目标词语片段构建多个词语片段纠错对;/n计算每一个用户词语片段对应的词语片段纠错对的纠错分值;/n基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型;/n通过所述第一纠错对打分模型和所述第二纠错对打分模型从所述多个词语片段纠错对中识别出多个目标词语片段纠错对。/n

【技术特征摘要】
1.一种搜索词纠错对构建方法,其特征在于,所述方法包括:
利用新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段;
基于所述多个候选词语片段构建中文字形编辑距离树及构建中文拼音编辑距离树;
获取用户历史搜索的多个文本数据,并利用所述新词发现算法确定出所述多个文本数据中的多个用户词语片段;
针对每个用户词语片段,根据所述中文文字形编辑距离树及所述中文拼音编辑距离树查询出与所述用户词语片段对应的目标词语片段,并基于所述用户词语片段和所述目标词语片段构建多个词语片段纠错对;
计算每一个用户词语片段对应的词语片段纠错对的纠错分值;
基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型;
通过所述第一纠错对打分模型和所述第二纠错对打分模型从所述多个词语片段纠错对中识别出多个目标词语片段纠错对。


2.如权利要求1所述的搜索词纠错对构建方法,其特征在于,所述基于所述多个词语片段纠错对及对应的纠错分值训练第一纠错对打分模型和第二纠错对打分模型包括:
从所述多个词语片段纠错对中选取出第一预设数量的词语片段纠错对;
为所述第一预设数量的词语片段纠错对设置标识;
将所述第一预设数量的词语片段纠错对及对应的标识作为第一训练数据;
基于所述第一训练数据训练第一纠错对打分模型及训练第二纠错对打分模型;
从所述多个词语片段纠错对中选取出第二预设数量的词语片段纠错对输入至所述第一纠错对打分模型和第二纠错对打分模型中;
获取所述第一纠错对打分模型输出的第一预测纠错分值和所述第二纠错对打分模型输出的第二预测纠错分值;
计算所述第一预测纠错分值及对应的所述第二预测纠错分值之间的差值,并选取差值大于预设差值阈值的目标差值及获取所述目标差值对应的第一词语片段纠错对;
获取所述第一预测纠错分值及对应的所述第二预测纠错分值均小于预设分值阈值的第二词语片段纠错对;
将所述第一词语片段纠错对及所述第二词语片段纠错对添加至所述第一训练数据中得到第二训练数据,并基于所述第二训练数据重新训练所述第一纠错对打分模型和所述第二纠错对打分模型。


3.如权利要求2所述的搜索词纠错对构建方法,其特征在于,所述利用中文新词发现算法计算出文本语料库中每个词语片段的邻接熵和凝固度并根据所述邻接熵和凝固度筛选出多个候选词语片段包括:
利用新词发现算法计算出文本语料库中每个词语片段的左邻接熵、右邻接熵和凝固度;
分别比较每个词语片段的所述左邻接熵、所述右邻接熵和所述凝固度是否大于预设阈值;
筛选出左邻接熵、右邻接熵且凝固度均大于所述预设阈值的词语片段并将筛选出的词语片段作为候选词语片段。


4.如权利要求2所述的搜索词纠错对构建方法,其特征在于,所述基于所述候选词语片段构建中文字形编辑距离树包括:
随机选择一个候选词语片段作为中文字形编辑距离树的根节点;
计算其余任意一个候选词语片段与所述根节点处的...

【专利技术属性】
技术研发人员:王异秀谭贤邹若奇
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1