【技术实现步骤摘要】
基于词语特征的相似度计算方法、装置、设备及存储介质
本专利技术涉及相似度匹配
,尤其涉及一种基于词语特征的相似度计算方法、装置、设备及存储介质。
技术介绍
在传统的客服系统或培训系统中,往往需要投入大量的人力和资源去响应业务请求,且对工作人员的专业性和熟练性要求较高,运营成本居高不下,且人力留存率较低,因此在智能化转型过程中,对于智能问答系统的需求迫在眉睫。目前业内主流的搭建智能问答系统的方式是基于检索式的方法,即从问答系统知识库中召回跟用户问题最相似的问题,其中文本相似度计算是检索式召回中的核心模块。现有的文本相似度计算方法主要包括深度学习模型方式、单层次的字面匹配计算(例如关键词匹配、编辑距离、杰卡德jaccard相似度等)。其中基于深度学习模型的语义表征方法对数据的样本量需求较大,且对新增问题库语料迭代缓慢,不易于扩展,而基于单层次的字面匹配方法,本质上是设置了每个token(词/字)的权重一样,无法有效地体现出具体业务场景下不同层次词语的贡献程度,从而影响了具体业务场景下文本相似度的度量。
技术实现思路
本专利技术提供了一种基于词语特征的相似度计算方法、装置、设备及存储介质,用于反映特定业务场景下需要优先匹配的词语类型,体现文本语义包含关系,提高特定业务场景下文本相似度值的计算准确性。本专利技术实施例的第一方面提供一种基于词语特征的相似度计算方法,包括:获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;根据所述原始问题文本和预置的应用场景确定目 ...
【技术保护点】
1.一种基于词语特征的相似度计算方法,其特征在于,包括:/n获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;/n根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;/n在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;/n根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;/n将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;/n将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。/n
【技术特征摘要】 【专利技术属性】
1.一种基于词语特征的相似度计算方法,其特征在于,包括:
获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;
根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;
在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;
根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;
将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;
将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。
2.根据权利要求1所述的基于词语特征的相似度计算方法,其特征在于,所述根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景,包括:
根据所述原始问题文本在预置的应用场景中选择任意一个应用场景作为目标应用场景,所述预置的应用场景包含多个预先设置的应用场景;
获取所述目标应用场景对应的目标分词标准;
在所述目标应用场景下查找与所述原始问题文本语义相似的相似问题文本。
3.根据权利要求1所述的基于词语特征的相似度计算方法,其特征在于,所述在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:
在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本;
基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征。
4.根据权利要求3所述的基于词语特征的相似度计算方法,其特征在于,所述基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:
基于所述目标分词标准对所述原始问题文本进行分词,得到原始问题文本的分词结果;
基于所述目标分词标准对候选问题文本进行分词,得到候选问题文本的分词结果;
对所述原始问题文本的分词结果和所述候选问题文本的分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。
5.根据权利要求3所述的基于词语特征的相似度计算方法,其特征在于,所述基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:
基于所述目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;
获取所述候选问题文本的预置分词结果,其中,所述预置分词结果为根据所述目标分词标准预先对候选问题文本进行离线分词的结果;
技术研发人员:金培根,刘志慧,陆林炳,何斐斐,林加新,李炫,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。