当前位置: 首页 > 专利查询>高妍专利>正文

一种字母数字串听读相似度的定量评估方法技术

技术编号:38491404 阅读:13 留言:0更新日期:2023-08-15 17:04
朗读者读出一个字母数字串(简称串),听者可能误听其为另一个串,原因是两个串有听读相似性。本发明专利技术提出了一种定量计算听读相似性(简称相似度)的方法。相似度值在0(很不相似)到100(两个串完全相同)之间。两个串越相似,相似度越大。串中的字符根据朗读所用时长,分解为1到3个音符。串相似度与音符的听读相似度(与串相似度的定义相同,可通过语音分析获取其值,或直接取经验值)有关。两个串中的音符两两配对(音符对),音符本身的相似度,音符在串中的位置都对串的相似度有影响。音符越靠前、在两个串中的位置越接近,对串相似度的影响越大。相似度还与两个串的长度差有关,差值越大越不相似。本发明专利技术综合上述因素给出了计算公式。式。式。

【技术实现步骤摘要】
一种字母数字串听读相似度的定量评估方法


[0001]本专利技术属于计算机技术中的模式识别领域,涉及一种字母数字串听读相似度的定量评估方法。

技术介绍

[0002]字母数字串是26个英文字母(不区分大小写)和10个数字(0到9)组成的字符串,在生产和生活中的应用很广泛,如航班号、火车车次号、汽车车牌号、身份证号、房间号等。
[0003]朗读者逐字符读出一个字母数字串(以下简称串),听者听出这个串的过程为听读过程。在生活和工作中有很多听读过程。如在空中交通管制中,管制员呼叫航班号,并对该航班发布指令;飞行员接受并执行管制员的指令,就是一个听读过程,其中管制员呼叫的航班号就是一个字母数字串,发布的指令中也包括很多的字母数字串(如高度、速度、方向等)。
[0004]字母数字串的听读中,朗读者可能会将一个串误读成与之相似的其他串;就算读得无误,听者也可能会误听成另外一个串。误读、误听会给生活和工作带来不便、失误甚至重大失误。比如在上述空中交通管制的例子中,如果飞行员将管制员呼叫的其他航班号误听为自己的航班号,并按管制员的指令执行,将会严重危及飞行安全。字母数字串听读相似是造成误读、误听的主要原因。如果事先将相似的串找出来,就可以提醒朗读者、听者注意,采取相应措施,如多读几遍,与听者核对,改变读法,或者用不容易误读误听的串代替等。
[0005]实际上字母数字串听读相似也有不同的程度,有时候非常相似,有时候只是有一点相似。程度不同,我们采取的措施也会不同,所以我们需要定量表示听读相似度,并找出一种对字母数字串听读相似度进行定量评估的方法。

技术实现思路

[0006]本专利技术的目的是提供一种字母数字串(以下简称串)听读相似度的定量评估方法,具体内容如下:
[0007]内容1,字母数字串相似度的定量。下面从串误读误听的概率出发,给出字母数字串相似度的定义。
[0008]内容1.1,听读正确和错误。在朗读端,将一个串s1呈现给朗读者,由其按字符逐个读出;听端的听者按听到的内容呈现出一个串s2。如果s1和s2相同,则称听读正确;如果s2没有呈现出来,或者虽然呈现出来了,但和s1不同,则称听读错误。“呈现”方式由具体应用决定,可以呈现在朗读者、听者的脑海里,可以写在纸上,也可以用其他有意义的方式。
[0009]s1呈现出来了,s2未呈现,称为漏听,算一次听读错误。s1未呈现,s2呈现,称为幻听,不是一个完整的听读过程,既非听读正确,也非听读错误,不统计在听读总数中。
[0010]内容1.2,听读正确和错误的概率。在特定应用场景,在朗读者和听者不特定的情况下,在s1呈现n次时,s2呈现且和s1相同的次数为m次,则听读正确的概率p1=m/n,听读错误的概率p2=(n

m)/n。显然有p1+p2=1。
[0011]内容1.3,串集。在特定场景下,有可能作为s1呈现出来的所有串构成的集合,称串集,设为S。显然有s1∈S。再假定s2∈S(含义是,如果听者听到的串不在串集中,可直接判断有错,不算一次听读过程,所以可假定s2∈S)。
[0012]内容1.4,听读配对概率。对特定的s1、s2,s1在朗读端呈现r次时,听端呈现s2的次数为t次,则s1、s2的原始听读配对概率P0(s1,s2)=t/r。
[0013]s1、s2的听读配对概率P(s1,s2)为P0(s1,s2)和P0(s2,s1)中的最小值。显然有P(s1,s2)=P(s2,s1)。
[0014]S中所有满足s1≠s2(s1∈S,s2∈S)的P(s1,s2)(即:将s1错听为s2的概率)值中的最小值设为E1,最大值设为E2。
[0015]对所有s1(s1∈S),所有P(s1,s1)(即:s1正确听读的概率)值中的最小值称为C1。
[0016]E1、E2、C1都可以视为S本身的参数。
[0017]内容1.5,串集评估。
[0018]对S,如果E2≥C1,则称S为不合格串集;否则为合格串集。在合格串集中,如果C1

E2(已有E2<C1)的值(如10)很小,则称S为不良串集。
[0019]不合格串集意味着,在串集中至少有一个串,将其误听成另一个不同的特定串的概率很大,甚至大过将某个特定串听对的概率。这种串集本身就是听读错误的温床,是不应该使用的。
[0020]不良串集意味着,在串集中至少有一个串,将其误听成另一个不同的特定串的概率很大,接近所有串听对概率中的最小值。这种串集中有些串对的听读相似度比较高,应予改良。
[0021]本专利技术中,如不特别说明,串集都指合格串集。
[0022]串集评估的意义在于,通过串集的设计,尽量降低串的听读相似度。对不合格串集、不良串集,可采取措施予以改良,如剔除部分串、改变字母数字的读法等。
[0023]内容1.6,字母数字串听读相似度(简称串相似度)的定义。设S为合格串集,s1∈S,s2∈S,s1、s2的听读相似度X(s1,s2)的定义如下:
[0024](1)0≤X≤100;
[0025](2)s1≠s2,且P(s1,s2)≤E1时,X=0;
[0026](3)s1=s2时,X=100;
[0027](4)对s1≠s2,s3≠s4,如P(s1,s2)<P(s3,s4),要求X(s1,s2)<X(s3,s4)。当P(s1,s2)=P(s3,s4),不要求X(s1,s2)=X(s3,s4)。
[0028]内容2,音符听读相似度评估。
[0029]字符是组成串的单元。根据字符朗读所用时间的长短不同,一个字符可分解成1到3个音符,具体分解方法随应用场合的不同而不同,表1是分解的一个例子。如:8分解成一个音符8,F分解成2个音符F1和F2,X分解成3个音符X1、X2、X3。字符的听读相似度按分解成的音符进行评估。
[0030]可以将一个音符看成串(单个音符的串)。串由音符组成,因此音符听读相似度(简称音符相似度)是在所有音符组成的集合(设其元素数为Sn)上定义的字母数字串相似度。
[0031]音符相似度是评估串相似度的基础。根据上述定义可知,其取值在0到100之间,如果两个音符相同,相似度是100;如果不同,其相似度是0到100(不含)的值。
[0032]音符相似度评估有多种方法,可用语音分析方法,也可用统计分析方法,或者直接使用经验值。但最后都可以用一个Sn*Sn的二维数组(音符相似度表)表示相似度。
[0033]内容3,字母数字串相似度计算。
[0034]设A、B是某个合格串集上的两个串。其中:
[0035]A由m个音符组成(m是A的长度),依次为A1、A2、
……
、Am,其中m>0。
[0036]B由n个音符组成(n是B的长度),依次为B1、B2、
……
、Bn,其中n>0。
[0037本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字母数字串听读相似度的定量评估方法,其特征在于:在串集和听读配对概率的基础上,以定量方式定义了字母数字串(简称串)的听读相似度,给出了串相似度的计算公式。字母数字串中的字母数字根据朗读所用时长分解为为1到3个音符。2.根据权利要求1所述的一种字母数字串听读相似度的定量评估方法,其特征在于:对所述串集的评估,属于串集S的两个串s1和s2,当在朗读端呈现s1时,听端呈现s2的概率为P0(s1,s2);P0(s1,s2)和P0(s2,s1)中的最小值为听读配对概率P(s1,s2);在S中,所有满足s1≠s2的P(s1,s2)值中的最小值设为E1,最大值设为E2;对所有s1,所有P(s1,s1)值中的最小值设为C1;对S,如果E2≥C1,则S为不合格串集;否则为合格串集。在合格串集中,虽有E2<C1,但如果C1

E2的值(如10)很小,则称S为不良串集。3.根据权利要求1所述的一种字母数字串听读相似度的定量评估方法,其特征在于:所述以定量方式定义字母数字串的听读相似度,设S为合格串集,s1∈S,s2∈S,s1、s2的听读相似度X(s1,s2)的定义为:(1)0≤X≤100;(2)s1≠s2,且P(s1,s2)≤E1时,X=0;(3)s1=s2时,X=100;(4)对s1≠s2,s3≠s4,如P(s1,s2)<P(s3,s4),则X(s1,s2)<X(s3,s4);当P(s1,s2)=P(s3,s4)时,不要求X(s1,s2)=X(s3,s4)。4.根据权利要求1所述的一种字母数字串听读相似度的定量评估方法,其特征在于:所述字母数字分解为音符,每个音符都有一个音符综合间距与之对应;设音符为C,其音符综合间距为pp;根据C计算pp的算法有两种。算法一:C是某个字符的唯一音符时,pp=1;C是某个多音符字符的第1个音符时,pp=0.5;C是某个多音符字符的第2个音符时,pp=1;C是某个多音符字符的第3个音符时,pp=0.5。算法二:C是某个字符的唯一音符时,pp=1;C是某个多音符字符的第1个音符时,pp=0.25;C是某个多音符字符的第2个音符时,pp=1;C是某个多音符字符的第3个音符时,pp=0.25。5.根据权利要求1所述的一种字母数字串听读相似度的定量评估方法,其特征在于:所述串相似度的计算公式,对合格串集上的两个串A、B,若A由m个音符Ac1、Ac2、
……
、Acm(m>0)组成,B由n个音符Bc1、Bc2、...

【专利技术属性】
技术研发人员:高妍赵丹妮黄坤岭
申请(专利权)人:高妍
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1