The application relates to the technical field of semantic parsing, in particular to a method, device and computer equipment for calculating text accuracy based on semantic parsing. When any position of template text begins to be transcribed except the starting point, an editing distance matrix is established to calculate the values of each element in the editing distance matrix. The trajectory matrix is generated according to the trajectory of each element in the editing distance matrix. The similarity of each trajectory in the trajectory matrix is calculated. The trajectory with the highest similarity is selected to obtain the first trajectory, and the first trajectory is obtained according to the first trajectory. To get the new template text, we divide the transcribed text into the corresponding starting point and ending point on the template text, and then compare the partial transcribed text with the new template text, and calculate the accuracy of the partial transcribed text. The purpose is to solve the existing transcription accuracy algorithm, compare the transcribed text with the whole text of the template text, and transcribe part of the text. At the same time, we can not accurately calculate the accuracy of text transcription.
【技术实现步骤摘要】
基于语义解析的文本准确率计算方法、装置、计算机设备
本申请涉及语义解析
,特别涉及一种基于语义解析的文本准确率计算方法、装置、计算机设备。
技术介绍
在统计ASR(语音识别)引擎转写准确率的时候,常用的算法是编辑距离算法。该算法通过统计转写文本转成模板文本所需的最少编辑操作(编辑操作包括:将一个字符替换成另外一个字符,插入一个字符,删除一个字符)次数来计算转写文本与模板文本的相似度(转写准确率)。但在关注ASR引擎的实时转写准确率的场景下,该算法的计算结果并不能令人满意。由于该算法总是拿已经转写出来的文本与模板文本的全部文本进行对比,因此,当只有部分文本被转写出来的时候,该算法并不能准确地计算出这部分转写出来的文本的转写准确率。因此,编辑距离在关注ASR引擎实时转写准确率的场景下并不适用。申请内容针对现有技术不足,本申请提出一种基于语义解析的文本准确率计算方法、装置、计算机设备,旨在解决现有的文本的转写准确率算法,将已经转写出来的文本与模板文本的全部文本进行对比,在部分文本被转写出来的时候,不能准确计算文本的转写准确率的问题。本申请提出的技术方案是:一种基于语义解析的文本准确率计算方法,所述方法包括:获取从模板文本除始点之外的任意位置开始被转写的部分转写文本;以所述模板文本字符的长度增加两个字符的长度为列数、以所述部分转写文本字符的长度增加两个字符的长度为行数,建立编辑距离矩阵;根据所述部分转写文本、所述模板文本,计算所述编辑距离矩阵中各元素的值;记录所述编辑距离矩阵中各元素的值的计算轨迹,生成与所述编辑距离矩阵对应的轨迹矩阵;计算所述轨迹矩阵中各轨 ...
【技术保护点】
1.一种基于语义解析的文本准确率计算方法,其特征在于,所述方法包括:获取从模板文本除始点之外的任意位置开始被转写的部分转写文本;以所述模板文本字符的长度增加两个字符的长度为列数、以所述部分转写文本字符的长度增加两个字符的长度为行数,建立编辑距离矩阵;根据所述部分转写文本、所述模板文本,计算所述编辑距离矩阵中各元素的值;记录所述编辑距离矩阵中各元素的值的计算轨迹,生成与所述编辑距离矩阵对应的轨迹矩阵;计算所述轨迹矩阵中各轨迹的相似度,筛选所述部分转写文本与所述模板文本相似度最高的一条轨迹,获得第一轨迹;根据所述第一轨迹,确定所述部分转写文本在所述模板文本上对应的始点和终点,获得第一始点和第一终点;根据所述第一始点和所述第一终点,从所述模板文本中获取新模板文本;将所述部分转写文本与所述新模板文本进行对比,通过编辑距离算法计算所述部分转写文本的准确率。
【技术特征摘要】
1.一种基于语义解析的文本准确率计算方法,其特征在于,所述方法包括:获取从模板文本除始点之外的任意位置开始被转写的部分转写文本;以所述模板文本字符的长度增加两个字符的长度为列数、以所述部分转写文本字符的长度增加两个字符的长度为行数,建立编辑距离矩阵;根据所述部分转写文本、所述模板文本,计算所述编辑距离矩阵中各元素的值;记录所述编辑距离矩阵中各元素的值的计算轨迹,生成与所述编辑距离矩阵对应的轨迹矩阵;计算所述轨迹矩阵中各轨迹的相似度,筛选所述部分转写文本与所述模板文本相似度最高的一条轨迹,获得第一轨迹;根据所述第一轨迹,确定所述部分转写文本在所述模板文本上对应的始点和终点,获得第一始点和第一终点;根据所述第一始点和所述第一终点,从所述模板文本中获取新模板文本;将所述部分转写文本与所述新模板文本进行对比,通过编辑距离算法计算所述部分转写文本的准确率。2.根据权利要求1所述的基于语义解析的文本准确率计算方法,其特征在于,在所述以所述模板文本字符的长度增加两个字符的长度为列数、以所述部分转写文本字符的长度增加两个字符的长度为行数,建立编辑距离矩阵的步骤之后,在所述根据所述部分转写文本、所述模板文本,计算所述编辑距离矩阵中各元素的值的步骤之前,包括:从所述编辑距离矩阵的第一行的第三个元素开始输入所述模板文本的字符;从所述编辑距离矩阵的第一列的第三个元素开始输入所述部分转写文本的字符;定义所述编辑距离矩阵的第二行中的第二个元素的值为0;以所述编辑距离矩阵的第二行中的第二个元素的值为0依次递增数值1,初始化所述编辑距离矩阵的第二行的各元素的值;以所述编辑距离矩阵的第二列中的第二个元素的值为0依次递增数值1,初始化所述编辑距离矩阵的第二列的各元素的值。3.根据权利要求2所述的基于语义解析的文本准确率计算方法,其特征在于,所述编辑距离矩阵中未被初始化的各元素的值由其左方、左上角、上方中的某一个元素的值来确定,在所述根据所述部分转写文本、所述模板文本,计算所述编辑距离矩阵中各元素的值的步骤中,包括:识别所述编辑距离矩阵的第三列中的第三个元素所处于的列数、行数;识别所述编辑距离矩阵的第三列中的第三个元素所处于的列数、行数分别对应所述模板文本的字符、所述部分转写文本的字符;判断所述编辑距离矩阵的第三列中的第三个元素所处于的列数对应所述模板文本的字符与所述编辑距离矩阵的第三列中的第三个元素所处于行数对应所述部分转写文本的字符是否相等;若所述编辑距离矩阵的第三列中的第三个元素所处于的列数对应所述模板文本的字符与所述编辑距离矩阵的第三列中的第三个元素所处于行数对应所述部分转写文本的字符相等,则所述编辑距离矩阵的第三列中的第三个元素的值为其左上角的元素的值;若所述编辑距离矩阵的第三列中的第三个元素所处于的列数对应所述模板文本的字符与所述编辑距离矩阵的第三列中的第三个元素所处于行数对应所述部分转写文本的字符不相等,则所述编辑距离矩阵的第三列中的第三个元素的值为其左方、左上角、上方的元素中最小值加1得到;依次计算所述编辑距离矩阵的第三列中的第四个元素的值,直至完成计算所述编辑距离矩阵中各元素的值。4.根据权利...
【专利技术属性】
技术研发人员:吴建财,邹芳,邢艳,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。