【技术实现步骤摘要】
一种数据纠错方法、装置及服务器
本专利技术涉及计算机
,尤其涉及一种数据纠错方法、装置及服务器。
技术介绍
随着互联网技术的飞速发展,互联网中的信息量也越来越大,如何能够更有效地获取其中所需的信息,已经越来越受到人们的关注。大多数人是通过搜索引擎来完成他们信息的搜寻过程,但是当用户在搜索引擎中输入搜索词进行查询时,往往出于各种原因,总会存在输入错别字、多字或少字的情况,例如,用户在存在着同音别字的情况时,将“公积金”输入成“公鸡金”,搜索引擎可能会发生返回的搜索结果不符合用户预期的问题,此时用户需要在大量的搜索结果页面寻找所需信息,通常需要花费较多时间查阅搜索结果后发现搜索词输入错误,并尝试更正搜索词重新搜索,或者为了得到有效信息而不停地更换搜索词,这种搜索方法无法达到智能化地查询的目的,并且效率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据纠错方法,可以准确地对搜索词进行自动化纠错,提升数据查询的效率和准确度。第一方面,本专利技术实施例提供了一种数据纠错方法,包括: ...
【技术保护点】
1.一种数据纠错方法,其特征在于,包括:/n获取用户输入的搜索词;/n将所述搜索词与预先创建的字典树进行匹配,得到匹配结果,所述字典树包括多个节点,所述多个节点中的每个节点用于表示参考词列表中参考词的一个分词片段;/n若所述匹配结果指示所述搜索词与所述字典树不匹配,则获取所述搜索词的特征向量,并根据所述搜索词的特征向量从所述参考词列表包括的多个参考词中确定出目标参考词;/n将数据库中与所述目标参考词匹配的内容作为所述搜索词的搜索结果。/n
【技术特征摘要】
1.一种数据纠错方法,其特征在于,包括:
获取用户输入的搜索词;
将所述搜索词与预先创建的字典树进行匹配,得到匹配结果,所述字典树包括多个节点,所述多个节点中的每个节点用于表示参考词列表中参考词的一个分词片段;
若所述匹配结果指示所述搜索词与所述字典树不匹配,则获取所述搜索词的特征向量,并根据所述搜索词的特征向量从所述参考词列表包括的多个参考词中确定出目标参考词;
将数据库中与所述目标参考词匹配的内容作为所述搜索词的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述搜索词与预先创建的字典树进行匹配,得到匹配结果,包括:
对所述搜索词进行分词处理,得到所述搜索词的多个分词片段;
将所述多个分词片段中的每个分词片段与预先创建的字典树中的各个节点进行匹配;
若存在分词片段与所述字典树中的节点不匹配,则生成匹配结果,所述匹配结果用于指示所述搜索词与所述字典树不匹配。
3.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词的特征向量从所述参考词列表包括的多个参考词中确定出目标参考词,包括:
获取所述参考词列表包括的多个参考词中每个参考词的特征向量;
计算所述搜索词的特征向量与所述每个参考词的特征向量之间的相似度;
将对应的相似度最高的参考词作为目标参考词。
4.根据权利要求3所述的方法,其特征在于,所述参考词列表还包括所述多个参考词中每个参考词的词频,所述将对应的相似度最高的参考词作为目标参考词,包括:
获取对应的相似度最高的第一参考词和对应的相似度次高的第二参考词;
获取所述第一参考词对应的相似度和所述第二参考词对应的相似度之间的差值;
判断所述差值是否小于或等于预设差值阈值;
若是,则从所述参考词列表中查询所述第一参考词的词频和所述第二参考词的词频,并将所述第一参考词和所述第二参考词中词频最高的参考词作为目标参考词;
若否,则将所述第一参考词作为目标参考词。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述匹配结果指示所述搜索词与所述字典树匹配,则从数据库中查询与所述搜索词匹配的候选内容;
获取所述候选内容与所述搜索词之间的相关度;
若所述相关度小于或等于预设...
【专利技术属性】
技术研发人员:韩时通,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。