【技术实现步骤摘要】
一种汉字
‑
通用盲文对照语料库的构建方法及系统
[0001]本专利技术涉及语义识别
以及盲文处理
,特别是汉字
‑
通用盲文对照语料库构建领域。
技术介绍
[0002]盲文是盲人阅读和获取信息的重要方式。它是一种触觉符号系统,印刷在纸张或显示在点显器上,通过触摸进行阅读。盲文的基本单位称作“方”,一方包含6个点位,通过设置每个点位是否有点共可形成64种组合(包括6个点位都没有点的空方),这些组合构成了最基本的盲文符号。
[0003]由于不可能将汉字唯一映射到64个盲文符号,汉语盲文被定义为一种拼音文字。在汉语盲文中,大多数情况下用2
‑
3方表示一个汉字,其中一方表示声母,一方表示韵母,有些情况还需要再增加一方表示声调。汉语盲文与汉字文本最大的区别在于其“分词连写”规则,即要求词与词之间用空方分隔。盲文分词与汉语分词不同,许多汉语中的短语在盲文中需要连写。针对分词连写,中国盲文标准中给出了100多条基于词法、语法和语义的细则,如
“‘
不< ...
【技术保护点】
【技术特征摘要】
1.一种汉字
‑
通用盲文对照语料库的构建方法,其特征在于,包括:步骤1、获取具有汉字文本
‑
现行盲文对照的汉字
‑
现行盲文语料,通过现行盲文音节与拼音音节间的映射表,将该汉字
‑
现行盲文语料中现行盲文转换为其对应的汉语拼音,并通过具有汉字
‑
拼音对照关系的词典,为转换得到的拼音串中缺少声调的拼音添加声调信息,得到该汉字
‑
现行盲文语料中汉字文本对应的词典匹配拼音串;步骤2、将该汉字
‑
现行盲文语料中汉字文本输入至机器学习模型,该机器学习模型输出该汉字文本对应的模型预测拼音串,以及模型预测拼音串中带有声调的汉语拼音对应的置信度;步骤3、根据词典匹配拼音串、模型预测拼音串及置信度,判断该汉字
‑
现行盲文语料中每一个现行盲文词对应的拼音串是否需要进行人工校对,若是则对现行盲文词的词典匹配拼音串进行人工校对后,得到现行盲文词的通用盲文拼音串,否则结合该词典匹配拼音串与该模型预测拼音串,生成现行盲文词的通用盲文拼音串;步骤4、采用通用盲文音节与带调拼音音节间的映射表,通过将该通用盲文拼音串转换为现行盲文词的通用盲文,构建汉字
‑
通用盲文对照语料库。2.如权利要求1所述的汉字
‑
通用盲文对照语料库的构建方法,其特征在于,该步骤1包括:步骤11,判断当前的现行盲文词是否为单字词,若否,则执行步骤12,若是,则在汉字
‑
拼音对照的词典中查找该汉字:如果查找命中,该汉字对应唯一的带有声调的拼音,则将此带有声调的拼音作为该现行盲文词对应的拼音;如果查找命中,该汉字对应多个不同的带有声调的拼音,则比较由该现行盲文词转换得到的拼音串,如果能够根据该拼音串唯一地确定一个字典中的有声调拼音,那么就将该现行盲文词的对应的拼音串设为唯一确定的有声调拼音;如果无法确定唯一的有声调的拼音,则将该现行盲文词对应的拼音标记为多音字;步骤12、判断当前的现行盲文词是否为多个字构成的汉字串,且在汉字
‑
拼音对照的词典中能够找到该汉字串,若否则执行步骤13,若是则继续判断:如果汉字
‑
拼音对照的词典中有汉字词与该现行盲文词对应的汉字串相同,且该汉字词在词典中对应唯一的带有声调的拼音串,则将此带有声调的拼音串作为该现行盲文对应的拼音;如果汉字
‑
拼音对照的词典中有汉字词与该现行盲文词对应的汉字串相同,且该汉字词在词典中对应多个不同的带有声调的拼音串,则比较由该现行盲文词转换得到的拼音串,如果能够根据该拼音串唯一地确定一个词典中的有声调拼音串,则将唯一确定的有声调拼音串作为该现行盲文词对应的拼音串;如果仍然无法确定唯一的有声调的拼音串,则将该现行盲文词在汉字
‑
拼音对照词典中对应的多个拼音串中相同的部分保留,不同的部分标记为多音字;步骤13、当前的现行盲文词为多个字构成的汉字串,且在汉字
‑
拼音对照的词典中没有汉字词与该现行盲文词对应的汉字串相同,分为以下处理内容:如果在汉字
‑
拼音对照的词典中存在汉字词与该现行盲文词对应的汉字串的部分子串相同,并且匹配方式唯一,则按匹配到汉字
‑
拼音对照词典中的汉字词的汉字子串所对应的
现行盲文,得到其对应的拼音串;处理该现行盲文词对应的汉字串的剩余部分中的每一个汉字所对应的现行盲文,得到其对应的拼音串,将按上述处理得到的所有拼音串按顺序连接后,可得到该现行盲文词对应的带声调的拼音串;如果在汉字
‑
拼音对照的词典中存在汉字词与该现行盲文词对应的汉字串的部分子串相同,并且匹配方式不唯一,则将整个现行盲文词对应的拼音串暂时标记为匹配多词;如果在汉字
‑
拼音对照的词典中不存在汉字词与该现行盲文词对应的汉字串的任一子串相同,则按该现行盲文对应的汉字串的每个汉字匹配汉字
‑
拼音对照词典,得到其对应的拼音串。3.如权利要求1所述的汉字
‑
通用盲文对照语料库的构建方法,其特征在于,该步骤2包括:将词语级对照的汉字
‑
现行盲文语料中的汉字文本按标点切分为句子,然后依次将每个句子的汉字文本输入该机器学习模型,得到该汉字文本对应的拼音串,以及每个拼音对应的概率。4.如权利要求2所述的汉字
‑
通用盲文对照语料库的构建方法,其特征在于,该步骤3包括判断是否满足下述两条件之一,若满足则需要对拼音串进行人工校对;条件一,当前的现行盲文词对应词典匹配拼音串包含匹配多词;条件二,当前的现行盲文词对应词典匹配拼音串中包含多音字,并且与该多音字子串对应的汉字在模型预测拼音串中所对应的拼音的置信度小于预设阈值。5.一种汉字
‑
通用盲文对照语料库的构建系统,其特征在于,包括:第一匹配模块,用于获取具有汉字文本
‑
现行盲文对...
【专利技术属性】
技术研发人员:王向东,姚鑫,王子和,刘宏,钱跃良,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。