System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
1、信息检索作为一种信息查询和获取的主要方式,被广泛应用于各业务线,比如包括但不限于商户信息核验(工商信息检索、地图信息检索等)、办公信息检索、创新技术应用等业务线。其中,作为信息检索的重要组成部分,关键词(query)提取效果往往决定了信息检索系统最终返回结果的准确率和关联程度。
2、现有技术针对关键词提取的方法主要有两种,一种为有监督方法,包括但不限于序列标注、序列生成等方法,其基于大规模有标注语料和深度学习建模的方法,拟合“全文-关键词标签”或“全文-关键词”之间的函数关系,继而泛化至无标注的文本上进行关键词抽取;另一种为无监督方法,包括但不限于规则方法、深度学习方法,其基于规则或深度神经网络抽取文本向量化特征,进而通过打分(比如条件概率、余弦相似度等)比较全文和关键词之间的关联程度,最终形成关键词候选列表。
3、然而,上述已有的关键词抽取方法存在一些缺点,比如前者方法缺少大规模有标注语料库,并且人工标注费时费力,且较难进行领域自适应,当领域发生迁移后提取模型则需要重新训练;后者方法的准确率较有监督方法更低,且存在偏爱长难句、忽略上下文信息等较难解决的问题。
4、可见,为了提升信息检索效果亟需优化关键词提取效果以克服现有的关键词提取方案存在的缺陷。
技术实现思路
1、本申请提供一种数据处理方法、装置、设备及存储介质,用于克服信息检索中现有关键词提取方法存在的缺陷
2、第一方面,本申请提供一种数据处理方法,应用于信息检索平台,包括:
3、响应检索指令获取待处理文本;
4、获取待处理文本的各候选关键词,并根据所述各候选关键词生成所述待处理文本的候选关键词集;
5、针对每个候选关键词,通过特征模型以及语义相似度算法确定所述每个候选关键词对应的语义相似度得分,所述特征模型通过对预训练模型进行半监督训练得到;
6、从所述每个候选关键词对应的语义相似度得分中获取最大值,将所述最大值对应的候选关键词确定为目标关键词,以根据所述目标关键词进行信息检索获得检索结果。
7、在一种可能的设计中,所述获取待处理文本的各候选关键词,包括:
8、利用无监督关键词抽取工具获取待处理文本的第一候选关键词,以及使用随机掩码策略获取所述待处理文本的第二候选关键词,所述各候选关键词包括所述第一候选关键词和所述第二候选关键词。
9、在一种可能的设计中,所述通过特征模型以及语义相似度算法确定所述每个候选关键词对应的语义相似度得分,包括:
10、通过所述特征模型获取当前候选关键词对应的多个特征向量;
11、根据所述多个特征向量通过所述语义相似度算法获取所述当前候选关键词对应的语义相似度得分;
12、其中,所述多个特征向量包括所述待处理文本的特征向量、所述当前候选关键词的特征向量以及所述当前候选关键词对应掩码文本的特征向量。
13、在一种可能的设计中,对所述预训练模型进行半监督训练得到所述特征模型,包括:
14、获取待训练数据集,所述待训练数据集包括多个训练文本、每个训练文本对应的关键词以及所述每个训练文本对应的待掩码字段;
15、根据预设损失函数以及参数优化算法利用所述待训练数据集对所述预训练模型进行训练,将结束训练的所述预训练模型确定为所述特征模型;
16、其中,所述预设损失函数根据所述每个训练文本的多个语义相似度得分得到,所述每个训练文本的多个语义相似度得分用于表征所述每个训练文本对应的关键词携带的文本信息以及所述每个训练文本掩盖其对应关键词后的上下文信息。
17、在一种可能的设计中,所述获取待训练数据集,包括:
18、获取未标注数据集,所述未标注数据集包括所述多个训练文本;
19、对所述每个训练文本进行人工关键词标注得到人工标注关键词,以及利用所述无监督关键词抽取工具对所述每个训练文本进行自动标注得到自动标注关键词;
20、根据所述每个训练文本对应的所述人工标注关键词和所述自动标注关键词,生成标注数据集,所述标注数据集包括所述每个训练文本以及所述每个训练文本对应的关键词;
21、针对所述每个训练文本,通过随机选择工具获取所述每个训练文本对应的待掩码字段;
22、根据所述标注数据集以及所述每个训练文本对应的待掩码字段生成所述待训练数据集。
23、在一种可能的设计中,所述无监督关键词抽取工具包括短语生成模型、关键词筛选模型以及短语抽取模型中的任一种,所述随机选择工具包括分词工具。
24、在一种可能的设计中,所述预训练模型包括bert模型、gpt、roberta模型、xlnet模型中的任一种。
25、在一种可能的设计中,所述响应检索指令获取待处理文本,包括:
26、接收业务端发送的业务信息,根据所述业务信息生成所述检索指令;
27、根据所述检索指令获取所述业务信息的特征字段,以根据所述特征字段得到所述待处理文本,所述特征字段用于表征所述业务信息对应的待办业务。
28、在一种可能的设计中,所述待办业务包括商户信息核验、办公信息检索以及数据库检索中的任一种。
29、第二方面,本申请提供一种数据处理装置,应用于信息检索平台,包括:
30、获取模块,用于响应检索指令获取待处理文本;
31、生成模块,用于获取待处理文本的各候选关键词,并根据所述各候选关键词生成所述待处理文本的候选关键词集;
32、第一处理模块,用于针对每个候选关键词,通过特征模型以及语义相似度算法确定所述每个候选关键词对应的语义相似度得分,所述特征模型通过对预训练模型进行半监督训练得到;
33、第二处理模块,用于从所述每个候选关键词对应的语义相似度得分中获取最大值,将所述最大值对应的候选关键词确定为目标关键词,以根据所述目标关键词进行信息检索获得检索结果。
34、在一种可能的设计中,所述获取与生成模块,具体用于:
35、利用无监督关键词抽取工具获取待处理文本的第一候选关键词,以及使用随机掩码策略获取所述待处理文本的第二候选关键词,所述各候选关键词包括所述第一候选关键词和所述第二候选关键词。
36、在一种可能的设计中,所述第一处理模块,具体用于:
37、通过所述特征模型获取当前候选关键词对应的多个特征向量;
38、根据所述多个特征向量通过所述语义相似度算法获取所述当前候选关键词对应的语义相似度得分;
39、其中,所述多个特征向量包括所述待处理文本的特征向量、所述当前候选关键词的特征向量以及所述当前候选关键词对应掩码文本的特征向量。
40、在一种可能的设计中,所述数据处理装本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,应用于信息检索平台,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述获取待处理文本的各候选关键词,包括:
3.根据权利要求2所述的数据处理方法,其特征在于,所述通过特征模型以及语义相似度算法确定所述每个候选关键词对应的语义相似度得分,包括:
4.根据权利要求3所述的数据处理方法,其特征在于,对所述预训练模型进行半监督训练得到所述特征模型,包括:
5.根据权利要求4所述的数据处理方法,其特征在于,所述获取待训练数据集,包括:
6.根据权利要求5所述的数据处理方法,其特征在于,所述无监督关键词抽取工具包括短语生成模型、关键词筛选模型以及短语抽取模型中的任一种,所述随机选择工具包括分词工具。
7.根据权利要求3-6任一项所述的数据处理方法,其特征在于,所述预训练模型包括BERT模型、GPT、RoBERTa模型、XLNET模型中的任一种。
8.根据权利要求7所述的数据处理方法,其特征在于,所述响应检索指令获取待处理文本,包括:
9.根据权利要求8
10.一种数据处理装置,其特征在于,应用于信息检索平台,包括:
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的数据处理方法。
13.一种计算机程序产品,包括计算机执行指令,该计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的数据处理方法。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于信息检索平台,包括:
2.根据权利要求1所述的数据处理方法,其特征在于,所述获取待处理文本的各候选关键词,包括:
3.根据权利要求2所述的数据处理方法,其特征在于,所述通过特征模型以及语义相似度算法确定所述每个候选关键词对应的语义相似度得分,包括:
4.根据权利要求3所述的数据处理方法,其特征在于,对所述预训练模型进行半监督训练得到所述特征模型,包括:
5.根据权利要求4所述的数据处理方法,其特征在于,所述获取待训练数据集,包括:
6.根据权利要求5所述的数据处理方法,其特征在于,所述无监督关键词抽取工具包括短语生成模型、关键词筛选模型以及短语抽取模型中的任一种,所述随机选择工具包括分词工具。
7.根据权利要求3-6任一项所述的数据处理方法,其特征在于,所述预训练模型包括b...
【专利技术属性】
技术研发人员:佘萧寒,邱雪涛,张思璐,王宇,王阳,
申请(专利权)人:中国银联股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。