【技术实现步骤摘要】
文本相似度的确定方法、装置、电子设备及存储介质
本申请涉及数据处理技术,特别涉及一种自然语言处理技术。
技术介绍
随着科技的发展,智能问答系统广泛应用各行各业中。在智能问答系统中,对于两个文本进行相似度判定是必不可少的执行步骤,一般的,首会先将语音转换为待分析的目标文本,然后通过分析目标文本与智能问答系统中的历史请求中的文本之间的相似程度,以确定智能问答系统针对该目标文本的问答策略。在现有技术中,对于文本之间的相似度的判定是基于文本中的各字符字形的相似性来确定的,具体来说可通过利用最长的公共子序列的长度,或两个文本的编辑距离,来计算得到任意两个文本之间的相似度。但是,由于不同的用户有着不同的发音习惯,在将语音转换为目标文本时,无法保证将用户语音转换为正确的目标文本,这将会导致基于转换后的目标文本进行相似度计算时容易出现误差,使得得到的判定结果不够准确,进而影响智能问答系统的输出问答的准确性。
技术实现思路
针对上述技术问题,本申请提供了一种文本相似度的确定方法、装置、电子设备及存储介质。第一方面,本申请实施例提供一种文本相似度的确定方法,包括:获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;根据各相似度取值,确定第一文本和第二文 ...
【技术保护点】
1.一种文本相似度的确定方法,其特征在于,包括:/n获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;/n利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;/n根据各相似度取值,确定第一文本和第二文本之间的相似度。/n
【技术特征摘要】
1.一种文本相似度的确定方法,其特征在于,包括:
获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;
利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;
根据各相似度取值,确定第一文本和第二文本之间的相似度。
2.根据权利要求1所述的文本相似度的确定方法,其特征在于,所述根据各相似度取值,确定第一文本和第二文本之间的相似度,包括:
将各相似度取值作为矩阵元素,构建相似度矩阵;
利用动态规划算法,确定相似度矩阵中的一个或多个最大相似路径;
根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度。
3.根据权利要求2所述的文本相似度的确定方法,其特征在于,所述利用动态规划算法,确定相似度矩阵中的一个或多个最大相似路径,包括:
在所述相似度矩阵中确定一个或多个子矩阵,其中,各子矩阵的矩阵元素不重叠,且每个子矩阵中的对角线沿线的各矩阵元素的均值大于预设的相似度阈值;
相应的,根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度,包括:
对各子矩阵中的对角线沿线的各矩阵元素进行求和,得到各子矩阵的相似度取值;
根据各子矩阵的相似度取值,确定第一文本和第二文本之间的相似度。
4.根据权利要求2所述的文本相似度的确定方法,其特征在于,所述根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度,包括:
确定各最大相似路径的相似度取值之和,以及确定所述第一文本和第二文本的字符数量的均值;
所述各最大相似路径的相似度取值之和与所述均值之比,构成所述第一文本和第二文本的相似度。
5.根据权利要求1所述的文本相似度的确定方法,其特征在于,所述获得对应的第一音节信息和第二音节信息,包括:
对获取的待处理的第一文本和第二文本进行字符分割处理,获得分别获得构成第一文本的字符和构成第二文本的字符;
对所述第一文本的字符和第二文本的字符进行音节转换处理,以获得每个字符对应的音节。
6.根据权利要求5所述的文本相似度的确定方法,其特征在于,所述每个字符对应的音节的数量为一个或多个。
7.根据权利要求5所述的文本相似度的确定方法,其特征在于,任一所述字符对应的音节中包括一个声母音节和一个韵母音节,或/和,任一所述字符对应的音节中包括一个韵母音节。
8.根据权利要求5所述的文本相似度的确定方法,其特征在于,所述每个字符对应的音节中包括有构成音节的音符以及对应的音调。
9.根据权利要求1-8任一项所述的文本相似度的确定方法,其特征在于,所述获取待处理的第一文本和第二文本,包括:
采集用户输入的语音信息;
对所述语音信息进行文本转换处理获得第一文本,以及将历史文本中的任一文本作为第二文本;其中,所述历史文本是对用户历史输入的语音信息进行文本转换处理得到的文本。
10.根据权利要求9所述的文本相似度的确定方法,其特征在于,还包括:
根据第一文本与各历史文本之间的相似度,在各历史文本中确定与第一文本相似度最高的文本,并将该相似度最高的文本所对应的答复文本作为第一文本对应的输出文本。
11.一种文本相似度的确定装置,其特征在于,包括:
音节转换模块,用于获取待处理的第一文本和第二文本,...
【专利技术属性】
技术研发人员:李艾宇,殷超,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。