一种字典更新方法及装置制造方法及图纸

技术编号:27535520 阅读:13 留言:0更新日期:2021-03-03 11:21
本发明专利技术涉及金融科技(Fintech)领域,公开一种字典更新方法及装置,获取预设时段内的各搜索词;针对任一搜索词,确定搜索词的有效分词;将多个有效分词具有的相同部分确定为词根;针对每个词根,构建包含该词根的各有效分词的词群;针对每个词群中的有效分词,确定各有效分词的评分,将评分满足阈值的有效分词加入到字典中。字典是紧密依赖于时间而进行更新,且在对字典进行更新的过程中,是依据了该预设时间段内的搜索词进行的,该方式的对字典进行更新的方式是自动化进行的,并非人工添加的方式来对字典进行更新,从而使得将该种方式得到的字典应用于用户资讯推荐时,可具有更好的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种字典更新方法及装置


[0001]本申请实施例涉及金融科技(Fintech)领域,尤其涉及一种字典更新方法及装置。

技术介绍

[0002]随着计算机技术的发展,越来越多的技术(例如:大数据或云计算)应用在金融领域,传统金融业正在逐步向金融科技转变,在大数据技术的背景下,用户通过在搜索引擎中输入搜索词,则可以获取海量的资讯。
[0003]目前流行的搜索引擎有Elasticsearch和Solr,其底层都是Lucene,Lucene关键组件是分词器。分词器在对搜索词进行切分时是通过字典进行的,如此搜索词经过分词器分词后可得到多个词元,随后通过将词元传给索引组件就会得到命中结果,最终可根据命中结果向用户推送与该搜索词相关的资讯。
[0004]然而,上述分词器在分词时所依据的字典通常是靠收集别人共享的词元二形成,并根据需求进行人工添加和扩展。因此,该类字典通常表现为具有很强的通用性,但专业性不强,这严重影响到搜索性能。此外,由于该类字典需要人工进行维护,维护成本高且主观性较强,效果欠佳。
[0005]综上,目前亟需一种使用自动化方式生成的字典来向用户推送与搜索词强相关的资讯的方法。

技术实现思路

[0006]本申请提供一种字典更新方法及装置,用以实现使用自动化方式生成的字典来向用户推送与搜索词强相关的资讯。
[0007]第一方面,本申请实施例提供一种字典更新方法,该方法包括:获取预设时段内的各搜索词;针对任一搜索词,确定所述搜索词的有效分词;将多个有效分词具有的相同部分确定为词根;针对每个词根,构建包含所述词根的各有效分词的词群;针对每个词群中的有效分词,确定各有效分词的评分,将评分满足阈值的有效分词加入到字典中。
[0008]在该方式,字典是紧密依赖于时间而进行更新,且在对字典进行更新的过程中,是依据了该预设时间段内的搜索词进行的,也即通过对预设时段内的各搜索词进行采集,并确定搜索词的有效分词,进一步确定词根,并以词根为基准建立词群,最后将词群中评分满足阈值的有效分词加入到字典中,该方式的对字典进行更新的方式是自动化进行的,并非人工添加的方式来对字典进行更新,从而使得将该种方式得到的字典应用于用户资讯推荐时,可具有更好的准确性。
[0009]在一种可能实现的方法中,所述针对每个词群中的有效分词,确定各有效分词的评分,包括:针对每个词群,根据所述词群中不同的有效分词的种类数,确定所述词群的群属性;针对每个有效分词,根据所述有效分词在所在词群中出现的次数,确定所述有效分词在所在词群中的频度;根据所述有效分词在所在词群中的频度和所述有效分词所在词群的群属性,确定所述有效分词的评分。
[0010]基于该方案,在确定有效分词的评分时,首先通过确定该有效分词所在词群的群属性,然后再确定该有效分词在它所在词群中的频度,最后根据群属性和频度来确定该有效分词的评分。通过该种方式确定的有效分词,若它对应的评分大,这说明该有效分词的重要性会更为重要一些,通过为有效分词评分的方式可以客观地衡量一个有效分词的重要性,该评分可作为是否可以将该有效分词加入到字典中的一个参考数据。
[0011]在一种可能实现的方法中,所述阈值通过如下方式确定,包括:根据各词群的群属性,确定均值群属性;根据设定的调整参数和所述均值群属性,确定所述阈值。
[0012]基于该方案,在衡量一个有效分词是否可以增加到字典中时,一方面可以确定该有效分词的评分,另一方面通过各词群的群属性确定均值群属性,且根据设定的调整参数和均值群属性来确定可以将有效分词增加到字典中的(评分)阈值,如此的话,通过将有效分词的评分与(评分)阈值进行比较,则可以快速地确定是否可以将该有效分词增加到字典中。该方式中的(评分)阈值是基于各个词群的群属性以及设定的调整参数进行确定的,因此该(评分)阈值可以综合的衡量一个有效分词是否可以真正的作为一个可增加到字典中的词。
[0013]在一种可能实现的方法中,所述根据所述词群中不同的有效分词的种类数,确定所述词群的群属性,包括:确定各搜索词的各有效分词中不同的有效分词的第一种类数;确定所述词群中不同的有效分词的第二种类数;根据所述第一种类数和所述第二种类数,确定所述词群的群属性。
[0014]基于该方案,通过根据各搜索词的各有效分词中的不同有效分词的第一种类数以及当前词群中的不同有效分词的第二种类数,则可以确定当前词群的群属性。该方式中的词群的群属性是基于构成该词群的有效分词种类与有效分词的总种类而确定的,因此词群的群属性具有很强的客观性,间接表示所更新得到的字典也具有强的客观性。
[0015]在一种可能实现的方法中,所述针对任一搜索词,确定所述搜索词的有效分词,包括:对所述搜索词进行切分,得到初始化词元;根据预设过滤规则对所述初始化词元进行筛选,得到有效词元;对所述有效词元进行标准化处理,得到所述有效分词。
[0016]基于该方案,在判定预设时段内的搜索词对应的更新字典时,通过对搜索词进行切分,并依据预设过滤规则得到的初始化词元进行筛选,从而得到有效词元,在对有效词元进行标准化处理后,从而得到有效分词。该方式通过对搜索词建立标准的有效分词,便于后期在依据更新后的字典为用户推荐资讯时,可以既准确又强相关。
[0017]在一种可能实现的方法中,所述根据预设过滤规则对所述初始化词元进行筛选,得到有效词元,包括:针对所述初始化词元,若所述初始化词元的词元长度满足长度删除条件,则删除所述初始化词元;若所述初始化词元未满足所述长度删除条件且确定所述初始化词元无语义,则删除所述初始化词元,从而得到有效词元。
[0018]基于该方案,通过删除初始化词元中的符合长度删除条件的,以及虽然未满足长度删除条件但无语义的这些初始化词元,从而得到有效词元,便于后续对有效词元进行标准化处理来得到有效分词。
[0019]在一种可能实现的方法中,所述对所述有效词元进行标准化处理,得到所述有效分词,包括:确定所述有效词元在错别字模板中是否存在替代词元;若存在,则将所述替代词元作为有效分词;其中,所述错别字模板通过如下方式获得:将所述有效词元逐一转化成
图片,得到图片集合;从所述图片集合中确定出相似度大于第一预设阈值的有效词元对;针对所述有效词元对中的第一有效词元和第二有效词元,分别统计所述第一有效词元在各有效词元中出现的第一次数和所述第二有效词元在各有效词元中出现的第二次数;若所述第一次数大于所述第二次数,则将所述第一有效词元作为所述第二有效词元的替代词元。
[0020]基于该方案,一种对有效词元进行标准化处理的方式是确定错别字模板中是否存在对应于该有效词元的替代词元,如果存在的话,则使用该替代词元作为该有效词元的有效分词。该方式中通过对有效词元进行错别字纠正的调整,从而使得更新到字典中的词不会有别字,如此在基于更新后的字典向用户推荐资讯的时候,可以提高准确性。
[0021]在一种可能实现的方法中,所述将多个有效分词具有的相同部分确定为词根,包括:针对所述搜索词的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字典更新方法,其特征在于,包括:获取预设时段内的各搜索词;针对任一搜索词,确定所述搜索词的有效分词;将多个有效分词具有的相同部分确定为词根;针对每个词根,构建包含所述词根的各有效分词的词群;针对每个词群中的有效分词,确定各有效分词的评分,将评分满足阈值的有效分词加入到字典中。2.如权利要求1所述的方法,其特征在于,所述针对每个词群中的有效分词,确定各有效分词的评分,包括:针对每个词群,根据所述词群中不同的有效分词的种类数,确定所述词群的群属性;针对每个有效分词,根据所述有效分词在所在词群中出现的次数,确定所述有效分词在所在词群中的频度;根据所述有效分词在所在词群中的频度和所述有效分词所在词群的群属性,确定所述有效分词的评分。3.如权利要求2所述的方法,其特征在于,所述阈值通过如下方式确定,包括:根据各词群的群属性,确定均值群属性;根据设定的调整参数和所述均值群属性,确定所述阈值。4.如权利要求2所述的方法,其特征在于,所述根据所述词群中不同的有效分词的种类数,确定所述词群的群属性,包括:确定各搜索词的各有效分词中不同的有效分词的第一种类数;确定所述词群中不同的有效分词的第二种类数;根据所述第一种类数和所述第二种类数,确定所述词群的群属性。5.如权利要求1-4任一项所述的方法,其特征在于,所述针对任一搜索词,确定所述搜索词的有效分词,包括:对所述搜索词进行切分,得到初始化词元;根据预设过滤规则对所述初始化词元进行筛选,得到有效词元;对所述有效词元进行标准化处理,得到所述有效分词。6.如权利要求5所述的方法,其特征在于,所述根据预设过滤规则对所述初始化词元进行筛选,得到有效词元,包括:针对所述初始化词元,若所述初始化词元的词元长度满足长度删除条件,则删除所述初始化词元;若所...

【专利技术属性】
技术研发人员:罗曼胡乐乐
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1