一种对蒙语进行AI智能标注的方法及其系统技术方案

技术编号:34637799 阅读:15 留言:0更新日期:2022-08-24 15:12
申请涉及一种对蒙语进行AI智能标注的方法,包括以下步骤:判定声音数据是否在无效数据范围内;识别音频内容是否为锡林郭勒盟口音;识别转写内容类型并作规范化处理;识别特殊文本,并作特殊标注;输出最终转写标注内容。本申请增加了对无效音频数据的筛选能力,减少了无效计算成本,提高了语音转写标注速率;提高了对正蓝旗标准音蒙古语中各种特殊情况和文本类型识别能力,提高了转写标注的准确率。提高了转写标注的准确率。提高了转写标注的准确率。

【技术实现步骤摘要】
一种对蒙语进行AI智能标注的方法及其系统


[0001]本申请涉及蒙古语处理的领域,尤其是涉及一种对蒙语进行AI智能标注的方法及其系统。

技术介绍

[0002]随着时代的发展以及社会的进步,社会各行业人群之间交往也逐渐密切,并且随着物流业和交通业的发展,在通讯业发达的前提下,跨国之间的贸易也逐渐增加,其中,部分农民在进行跨国贸易的时候语言的不便成为了主要的障碍之一,为此,语言互译的app以及网站起到了重大作用,但是某些农民的文化程度较低,对于电子设备的掌控和熟悉性较低,并且由于长年在同一地点劳作,其方言口音较重,在使用语言互译软件的时候不能很好的得到良好的翻译。
[0003]针对正蓝旗标准音没有效果较好的转写标注方法,无法完成正蓝旗标准音蒙古语的转写标注工作。

技术实现思路

[0004]为了解决正蓝旗标准音蒙古语转写标注效果不好的问题,本申请提供一种对蒙语进行AI智能标注的方法及其系统。
[0005]本申请提供一种对蒙语进行AI智能标注的方法,包括以下步骤:
[0006]一种对蒙语进行AI智能标注的方法,包括以下步骤:
[0007]步骤S1,数据有效性判定,判定声音数据是否有效,若声音数据不在无效数据范围内,则声音数据有效,进行音频转写标注,若声音数据符合无效数据范围内任意一条标准即为无效数据,则声音数据无效,不进行音频转写标注,并作标坏处理,标记为坏数据;
[0008]步骤S2,音频口音判定,识别音频内容是否为锡林郭勒盟口音,若识别结果为锡林郭勒盟口音,则进行音频转写标注,若识别结果为其他地方口音,则不作音频转写标注,并对其他地方口音音频直接标坏处理;
[0009]步骤S3,转写内容规范化处理,识别转写内容类型并作转写标注处理;
[0010]步骤S4,特殊文本标注,识别特殊文本,并作特殊标注;
[0011]步骤S5,转写标注内容输出,综合步骤S3

S4结果,输出最终转写标注内容。
[0012]通过上述方案,本申请增加了对无效音频数据的筛选能力,减少了无效计算成本,提高了语音转写标注速率;提高了对正蓝旗标准音蒙古语中各种特殊情况和文本类型识别能力,提高了转写标注的准确率。
[0013]进一步的,所述步骤S1中,无效数据范围包括:非目标语种及非正蓝旗类型、严重上下截幅类型、发音人录音效果差类型、人声噪音类型、回读类型、单个词类型、说唱和唱歌类型;
[0014]所述非目标语种及非正蓝旗类型具体为:空数据、纯环境噪音、纯音乐、纯人声噪音、纯人声非语音、纯系统播报音;
[0015]所述严重上下截幅类型具体为:音频刺耳、吼出来,波形图超出上下边界线,说话内容听不清;
[0016]所述发音人录音效果差类型具体为:发音人喷麦严重听不清,嘘着嗓子说话;
[0017]所述人声噪音类型具体为:人声噪音影响主发音人,导致听不清;
[0018]所述回读类型具体为:一个词未读完,并且后面带有回读现象;
[0019]所述单个词类型具体为:一条音频仅有一个词。增加了对无效音频数据的筛选能力,减少了无效计算成本,提高了语音转写标注速率;
[0020]进一步的,所述步骤S3包括:步骤S301,概称处理;步骤S302,第一类词处理,具体为处理;步骤S303,派生词后缀处理;步骤S304,语气助词处理;步骤S305,复合词处理;步骤S306,标准音及方言词汇处理;步骤 S307,代词处理;步骤S308,第二类词处理,具体为处理;步骤 S309,第三类词处理,具体为相关词处理;步骤S310,借词处理;步骤 S311,新词汇处理;能够使标注转写规范化。
[0021]所述步骤S301中:概称形式能把某个词的涵义变得比较广泛,使本来指某个具体事物的词,变为包括同类或与它密切相关的其他事物的词;概称的最主要的形式,是在一个名词后边再重复一个以辅音为首的同样一个词,有时也重复一些以其他辅音为首的词,把第二个词语的第一个音节变换成辅音;由形容词组成的概称中在形容词第一个音节后面加上辅音;概称动词只有一个实义动词后边接用概称动词以后,该实义动词的意义范围扩大;
[0022]所述步骤S302中:共同格需分开写,书面语中用替代,但在连续语句中转写时不需要用替代;名词加变成形容词时需连着写;谓语结构中的需分开写,书面语中用替代,但在连续语句中转写时直接音频转写;论证推测涵义的情态动词中的需连着写;12属相名词加时需连着写;
[0023]所述步骤S303中:如果句中出现无变化的词语把虚词分隔出来写;副词分开写,
[0024]所述步骤S304中:对于阳性词后面直接转写读第一元音,阴性词后面直接转写读第二元音,除了第一、第二元音之外其他时候根据词的阴阳性来判断;应读成“第五元音应读成“第六元音”〔o〕应读成“第七元音”〔u〕应读成“第五元音”〔v〕若前面出现“或”结尾的词均按照音频转写;
[0025]所述步骤S305中:两个或两个以上词语组成的人名和地名,还有一些专有名词不区分词的阴阳性连着写;由两个词根组成的词语中第二词根是元音时分开书写;
[0026]所述步骤S306中:连续语句中的属非标准音范围,需要直接把数据标坏处理;对于方言词汇,察哈尔口语中的和乌珠穆沁口语中的一词直接音频转写;音频中如果出现一词直接音频转写;音频中如果出现这几个词,直接音频转写;
[0027]所述步骤S307中,代词包括:
[0028]所述步骤S308中:充当第二格定格定型化的名词、代词及一些时位词时则分开写;处于部分形容词及时位词后连着写;后缀第三格向位格后面加构词附加成分时需转写成
[0029]所述步骤S309中:若一词的词义、形态、功能方面已具有附加成分变化时可连着写;若一词无发生变化即能构成复合词且具有构词与变形附加成分功能则要分开写;
[0030]所述步骤S310中:对于蒙古语化了的借词,以蒙古语实际读音转写,对新进的借词,则以其相近的读音,结合蒙古语语音系统予以转写;所述步骤 S311中:由动词派生名词的后缀如果词根是以辅音结尾,应以词义和功能相同的后缀来替代规范转写。
[0031]进一步的,所述步骤S4中,根据主发音人的语音内容进行转写,内容要严格与所听到的语音一致;转写内容要顶格写;背景音为人声且为目标语种并听音清晰则按先后顺序全部进行标注,若背景音不清晰则只标注主发音人;文本要确保与音频完全一致,地名、人名必须合理;
[0032]所述步骤S4包括:步骤S41,阿拉伯数字标注,根据音频转写成相应的蒙古文字;步骤S42,英文标注,转写标注时如果遇到英文直接标注为英文,如果遇到外来语时根据蒙文中外来语的意思进行标注;步骤S43,语气词标注;步骤S44,语法错误文本标注,出现语法错误的,只要发音清晰明确,直接转写标注音频内容;步骤S45,标点符号标注,转写标注过程中,仅能出现“?!”这四种标点符号;步骤S46,专有名词类标注,专有名词、中国人名、地名、英文人名、地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对蒙语进行AI智能标注的方法,其特征在于,包括以下步骤:步骤S1,数据有效性判定,判定声音数据是否有效,若声音数据不在无效数据范围内,则声音数据有效,进行音频转写标注,若声音数据符合无效数据范围内任意一条标准即为无效数据,则声音数据无效,不进行音频转写标注,并作标坏处理,标记为坏数据,无效数据范围包括:非目标语种及非正蓝旗类型、严重上下截幅类型、发音人录音效果差类型、人声噪音类型、回读类型、单个词类型、说唱和唱歌类型;步骤S2,音频口音判定,识别音频内容是否为锡林郭勒盟口音,若识别结果为锡林郭勒盟口音,则进行音频转写标注,若识别结果为其他地方口音,则不作音频转写标注,并对其他地方口音音频直接标坏处理;步骤S3,转写内容规范化处理,识别转写内容类型并作转写标注处理;步骤S4,特殊文本标注,识别特殊文本,并作特殊标注;步骤S5,转写标注内容输出,综合步骤S3

S4结果,输出最终转写标注内容。2.根据权利要求1所述的一种对蒙语进行AI智能标注的方法,其特征在于:所述步骤S1中,所述非目标语种及非正蓝旗类型具体为:空数据、纯环境噪音、纯音乐、纯人声噪音、纯人声非语音、纯系统播报音;所述严重上下截幅类型具体为:音频刺耳、吼出来,波形图超出上下边界线,说话内容听不清;所述发音人录音效果差类型具体为:发音人喷麦严重听不清,嘘着嗓子说话;所述人声噪音类型具体为:人声噪音影响主发音人,导致听不清;所述回读类型具体为:一个词未读完,并且后面带有回读现象;所述单个词类型具体为:一条音频仅有一个词。3.根据权利要求1所述的一种对蒙语进行AI智能标注的方法,其特征在于:所述步骤S3包括:步骤S301,概称处理;步骤S302,第一类词处理,具体为处理;步骤S303,派生词后缀处理;步骤S304,语气助词处理;步骤S305,复合词处理;步骤S306,标准音及方言词汇处理;步骤S307,代词处理;步骤S308,第二类词处理,具体为处理;步骤S309,第三类词处理,具体为相关词处理;步骤S310,借词处理;步骤S311,新词汇处理;所述步骤S301中:概称形式能把某个词的涵义变得比较广泛,使本来指某个具体事物的词,变为包括同类或与它密切相关的其他事物的词;概称的最主要的形式,是在一个名词后边再重复一个以辅音为首的同样一个词,有时也重复一些以其他辅音为首的词,把第二个词语的第一个音节变换成辅音;由形容词组成的概称中在形容词第一个音节后面加上辅音;概称动词只有一个接用于实义动词之后;所述步骤S302中:共同格需分开写,书面语中用替代,但在连续语句中转写时不需要用替代;名词加变成形容词时需连着写;谓语结构中的需分开写,书面语中用替代,但在连续语句中转写时直接音频转写;论证推测涵义的情态动词中的需连着写;12属相名词加时需连着写;所述步骤S303中:如果句中出现无变化的词语,把虚词分隔出来写;副词
分开写,所述步骤S304中:对于阳性词后面直接转写读第一元音,阴性词后面直接转写读第二元音,除了第一、第二元音之外其他时候根据词的阴阳性来判断;应读成“第五元音”〔v〕〔v〕应读成“第六元音”〔o〕〔o〕应读成“第七元音”〔u〕〔u〕应读成“第五元音”〔v〕若前面出现“或”结尾的词均按照音频转写;所述步骤S305中:两个或两个以上词语组成的人名和地名,还有一些专有名词不区分词的阴阳性连着写;由两个词根组成的词语中第二词根是元音时分开书写;所述步骤S306中:连续语句中的属非标准音范围,需要直接把数据标坏处理;对于方言词汇,察哈尔口语中的和乌珠穆沁口语中的一词直接音频转写;音频中如果出现词直接音频转写;音频中如果出现这几个词,直接音频转写;所述步骤S307中,代词包括:所述步骤S307中,代词包括:所述步骤S308中:充当第二格定格定型化的名词、代词及一些时位词时则分开写;处于部分形容词及时位词后连着写;后缀第三格向位格后面加构词附加成分时需转写成所述步骤S309中:若一词的词义、形态、功能方面已具有附加成分变化时可连着写;若一词无发生变化即能构成复合词且具有构词与变形附加成分功能则要分开写;所述步骤S310中:对于蒙古语化了的借词,以蒙古语实际读音转写,对新进的借词,则以其相近的读音,结合蒙古语语音系统予以转写;所述步骤S311中:由动词派生名词的后缀如果词根是以辅音结尾,应以词义和功能相同的后缀来替代规范转写。4.根据权利要求1所述的一种对蒙语进行AI智能标注的方法,其特征在于:所述步骤S4中,根据主发音人的语音内容进行转写,内容要严格与所听到的语音一致;转写内容要顶格写;背景音为人声且为目标语种并听音清晰则按先后顺序全部进行标注,若背景音不清晰则只标注主发音人;文本...

【专利技术属性】
技术研发人员:娜仁格日乐陈磊杨忠王辉戴林尹帮仁程彪
申请(专利权)人:讯飞智元信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1