文本相似度的确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24800194 阅读:45 留言:0更新日期:2020-07-07 21:09
本实施例提供的文本相似度的确定方法、装置、电子设备及存储介质,涉及一种自然语言处理技术,具体通过获取待处理的第一文本和第二文本以及对应的第一音节信息和第二音节信息;其中,第一音节信息包括第一文本中的每个字符的音节;第二音节信息包括第二文本中的每个字符的音节;并利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;根据各相似度取值,确定第一文本和第二文本之间的相似度。本申请获得的相似度是基于文本的字符对应的音节来确定的,从而在对于用户语音的相似识别上有着良好的识别准确率,进而智能问答系统的输出问答的准确性。

【技术实现步骤摘要】
文本相似度的确定方法、装置、电子设备及存储介质
本申请涉及数据处理技术,特别涉及一种自然语言处理技术。
技术介绍
随着科技的发展,智能问答系统广泛应用各行各业中。在智能问答系统中,对于两个文本进行相似度判定是必不可少的执行步骤,一般的,首会先将语音转换为待分析的目标文本,然后通过分析目标文本与智能问答系统中的历史请求中的文本之间的相似程度,以确定智能问答系统针对该目标文本的问答策略。在现有技术中,对于文本之间的相似度的判定是基于文本中的各字符字形的相似性来确定的,具体来说可通过利用最长的公共子序列的长度,或两个文本的编辑距离,来计算得到任意两个文本之间的相似度。但是,由于不同的用户有着不同的发音习惯,在将语音转换为目标文本时,无法保证将用户语音转换为正确的目标文本,这将会导致基于转换后的目标文本进行相似度计算时容易出现误差,使得得到的判定结果不够准确,进而影响智能问答系统的输出问答的准确性。
技术实现思路
针对上述技术问题,本申请提供了一种文本相似度的确定方法、装置、电子设备及存储介质。第一方面,本申请实施例提供一种文本相似度的确定方法,包括:获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;根据各相似度取值,确定第一文本和第二文本之间的相似度。第二方面,本申请实施例提供一种文本相似度的确定装置,包括:音节转换模块,用于获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;相似度取值获取模块,用于利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;相似度确定模块,用于根据各相似度取值,确定第一文本和第二文本之间的相似度。第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的文本相似度的确定方法。第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的文本相似度的确定方法。本实施例提供的文本相似度的确定方法、装置、电子设备及存储介质,通过获取待处理的第一文本和第二文本以及对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;并利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;根据各相似度取值,确定第一文本和第二文本之间的相似度。相对于现有技术采用的基于文字的字符字形相似性来得到文本之间的相似度的方案来说,本申请获得的相似度是基于文本的字符对应的音节来确定的,从而在对于用户语音的相似识别上有着良好的识别准确率,进而智能问答系统的输出问答的准确性。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1为本申请所基于的一种网络架构的示意图;图2为本申请实施例提供的一种文本相似度的确定方法的流程示意图;图3为本申请实施例提供的一种文本相似度的确定方法的界面示意图;图4为本申请实施例提供的另一种文本相似度的确定方法的流程示意图;图5为本申请实施例提供的一种相似度矩阵的示意图;图6为本申请实施例提供的又一种文本相似度的确定方法的流程示意图;图7为本申请实施例提供的文本相似度的确定装置的结构框图;图8为本申请实施例提供的电子设备的硬件结构示意图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在各类应用和业务中,为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。随着科技的发展,智能问答系统广泛应用各行各业中。在智能问答系统中,对于两个文本进行相似度判定是必不可少的执行步骤,一般的,首会先将语音转换为待分析的目标文本,然后通过分析目标文本与智能问答系统中的历史请求中的文本之间的相似程度,以确定智能问答系统针对该目标文本的问答策略。在现有技术中,对于文本之间的相似度的判定是基于文本中的各字符字形的相似性来确定的,具体来说可通过利用最长的公共子序列的长度,或两个文本的编辑距离,来计算得到任意两个文本之间的相似度。但是,由于不同的用户有着不同的发音习惯,在将语音转换为目标文本时,无法保证将用户语音转换为正确的目标文本,这将会导致基于转换后的目标文本进行相似度计算时容易出现误差,使得得到的判定结果不够准确,进而影响智能问答系统的输出问答的准确性。针对上述问题,本申请提供的技术方案利用了文本的字符的音节特性,即利用文本的音节的发音相似性来确定文本之间的相似度。具体的,首先获得第一音节信息和第二音节信息;然后,利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;最后,根据各相似度取值,确定第一文本和第二文本之间的相似度。相对于现有技术采用的基于文字的字符字形相似性来得到文本之间的相似度的方案来说,通过采用这样方式,在对于智能问答系统中文本相似度的计算上,特别是语音文本的相似度的计算上,有着良好的相似度计算的准确率,进而也使得智能问答系统基于该相似度所能得到的输出问答的准确性得到提高。参考图1,图1为本申请所基于的一种网络架构的示意图,该图1所示网络架构具体可包括文本相似度的确定装置2以及终端1。其中,终端1具体可为用户手机、台式电脑、智能家居设备、平板电脑等可用于采集语音和显示图像的硬件设备,而文本相似度的确定装置2是可与终端1通过网络进行交互的硬件或软件,其可用于执行下述各示例中所述的文本相似度的确定方法,并将从终端1的采集设备对用户采集得到的语音转本文档来自技高网...

【技术保护点】
1.一种文本相似度的确定方法,其特征在于,包括:/n获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;/n利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;/n根据各相似度取值,确定第一文本和第二文本之间的相似度。/n

【技术特征摘要】
1.一种文本相似度的确定方法,其特征在于,包括:
获取待处理的第一文本和第二文本,并获得对应的第一音节信息和第二音节信息;其中,所述第一音节信息包括第一文本中的每个字符的音节;所述第二音节信息包括第二文本中的每个字符的音节;
利用预设的音节相似度词典,确定第一音节信息中的每个音节,与第二音节信息中的每个音节之间的相似度取值;
根据各相似度取值,确定第一文本和第二文本之间的相似度。


2.根据权利要求1所述的文本相似度的确定方法,其特征在于,所述根据各相似度取值,确定第一文本和第二文本之间的相似度,包括:
将各相似度取值作为矩阵元素,构建相似度矩阵;
利用动态规划算法,确定相似度矩阵中的一个或多个最大相似路径;
根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度。


3.根据权利要求2所述的文本相似度的确定方法,其特征在于,所述利用动态规划算法,确定相似度矩阵中的一个或多个最大相似路径,包括:
在所述相似度矩阵中确定一个或多个子矩阵,其中,各子矩阵的矩阵元素不重叠,且每个子矩阵中的对角线沿线的各矩阵元素的均值大于预设的相似度阈值;
相应的,根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度,包括:
对各子矩阵中的对角线沿线的各矩阵元素进行求和,得到各子矩阵的相似度取值;
根据各子矩阵的相似度取值,确定第一文本和第二文本之间的相似度。


4.根据权利要求2所述的文本相似度的确定方法,其特征在于,所述根据一个或多个最大相似路径对应的相似度取值,确定第一文本和第二文本之间的相似度,包括:
确定各最大相似路径的相似度取值之和,以及确定所述第一文本和第二文本的字符数量的均值;
所述各最大相似路径的相似度取值之和与所述均值之比,构成所述第一文本和第二文本的相似度。


5.根据权利要求1所述的文本相似度的确定方法,其特征在于,所述获得对应的第一音节信息和第二音节信息,包括:
对获取的待处理的第一文本和第二文本进行字符分割处理,获得分别获得构成第一文本的字符和构成第二文本的字符;
对所述第一文本的字符和第二文本的字符进行音节转换处理,以获得每个字符对应的音节。


6.根据权利要求5所述的文本相似度的确定方法,其特征在于,所述每个字符对应的音节的数量为一个或多个。


7.根据权利要求5所述的文本相似度的确定方法,其特征在于,任一所述字符对应的音节中包括一个声母音节和一个韵母音节,或/和,任一所述字符对应的音节中包括一个韵母音节。


8.根据权利要求5所述的文本相似度的确定方法,其特征在于,所述每个字符对应的音节中包括有构成音节的音符以及对应的音调。


9.根据权利要求1-8任一项所述的文本相似度的确定方法,其特征在于,所述获取待处理的第一文本和第二文本,包括:
采集用户输入的语音信息;
对所述语音信息进行文本转换处理获得第一文本,以及将历史文本中的任一文本作为第二文本;其中,所述历史文本是对用户历史输入的语音信息进行文本转换处理得到的文本。


10.根据权利要求9所述的文本相似度的确定方法,其特征在于,还包括:
根据第一文本与各历史文本之间的相似度,在各历史文本中确定与第一文本相似度最高的文本,并将该相似度最高的文本所对应的答复文本作为第一文本对应的输出文本。


11.一种文本相似度的确定装置,其特征在于,包括:
音节转换模块,用于获取待处理的第一文本和第二文本,...

【专利技术属性】
技术研发人员:李艾宇殷超
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1