一种盲文输入方法和系统技术方案

技术编号:6098997 阅读:254 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种盲文输入方法和系统。所述方法包括下列步骤:步骤根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;根据输入的盲文句子B,列出其对应的所有候选汉语句子S;利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B),取P(S|B)值最大的对应的汉语词串的序列S=s1s2...sm作为最终汉语句子输出。其能够有效利用汉语盲文自身特征,提高盲文转换为汉字的正确率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,特别是涉及一种盲文输入方法和系统
技术介绍
人机交互是盲人使用计算机的主要困难之一。人机交互包含输入与输出两个方面。前者是指通过键盘、鼠标等输入设备将文字或指令输入计算机,后者则是指将文字或其它信息以视觉和语音方式输出给用户。由于语音合成技术日益成熟,将文字转化为语音输出已经成为现实,因此对盲人而言,文字输入困难是制约其使用计算机的重要因素。盲人输入文字困难一方面是由于视力障碍,另一方面是因为盲人使用的汉语盲文字与汉字不同。汉语盲文是基于布莱尔盲文体系,每个盲文字符均以两列共6个点作为一个基本结构(Ii ),这6个点有的凸起,有的不凸起,形成64种变化,即能表示64种不同的字符。在汉语盲文中,每种字符表示汉语拼音中的一个声母、韵母或声调,不同的字符按照汉语拼音规则组成合法音节以表示汉字,也就是说汉语盲文是一种拼音性的文字。盲人日常书写盲文是通过在纸上扎出不同的盲文字符,其书写习惯与采用汉语拼音和标准键盘的普通拼音输入法有很大差别。因此,盲人通过键盘使用现有的汉字输入法输入汉字是很困难的。为了解决盲人在计算机上输入文字困难的问题,已经出现一些帮助盲人实现汉字输入的系统,其实现方法主要有两种一种是利用普通计算机的标准键盘和现有汉字输入法并配合语音合成技术提示用户,另一种是采用与盲文对应的键盘设置和相应的输入法。 目前,多数盲人计算机系统支持上述第一种方法,但它存在两个问题首先,标准键盘键数过多,不适合视力障碍者快速摸读;其次,由于盲人对字形的观念弱,而盲文使用的字音拼读方法又与通过标准键盘输入英文字符构成的汉字拼音不同,导致盲人使用现有汉字输入法很不方便。为解决这一问题,出现了上述第二种方法,即采用与盲文对应的键盘设置和相应输入法,其主要思路是在标准键盘上定义6个,或是采用专用的6键键盘,使得6个键分别对应盲文的6个凸点,当6个键中的某一个或几个同时按下时,可对应盲文中的一个盲符。这种方法与盲符相对应,相对来说更符合盲文的输入习惯,但由于操作时候要同时按下多个键,不符合通常的按键习惯,因此往往需要一段时间的训练才能熟练使用。而且,采用这种方法的用户输入的是盲文,当用户需要与普通人交流时,还需要将其转换为汉字。现有的汉语盲文到汉字的转换通常是先将盲文转换为拼音,再使用语言模型并结合规则将拼音转换为汉字,但是这种方法在盲文到拼音和拼音到汉字两次转换中都有可能产生错误,而且忽视了汉语盲文自身的特点,导致汉语盲文到汉字转换正确率并不高。
技术实现思路
本专利技术的目的在于提供一种盲文输入方法和系统。其能够有效利用汉语盲文自身特征,提高盲文转换为汉字的正确率。为实现本专利技术的目的而提供的一种盲文输入方法,包括下列步骤步骤100.根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;步骤200.根据输入的盲文句子B,列出其对应的所有候选汉语句子S;步骤300.利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P (S I B),取P (S I B)值最大的对应的汉语词串的序列3 = 4, ... 作为最终汉语句子输出。所述步骤100,包括下列步骤步骤110.利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B 的分词连写概率P (B ι S)I S) = V{bxb2...bm I Sxs2...sm) = ΠΡ(办,I 丨)其中,PO^i | Si)表示汉语词串/=1Si在分词连写规则下对应一个盲文词bi的概率;步骤120.根据N-gram语言模型,获取汉语词概率P (S) P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2...W1^1) (i = 1···Τ),其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通过大量的文本训练得到;步骤130.根据所述分词连写概率P (B I S)和所述汉语词概率P (S),利用贝叶斯公式P口 I B) =,构造盲汉转换模型。所述P(bi|Si)值的估算采用如下三种方法a. 0-1 规则法假设共有K条规则r2,. . .,ι·κ,若汉语词串Si满足规则r」,记作R(s,r」)=True, 否则记作R(s,rj) = False ;采用0,1两个值定义分词连写概率,即当满足任一条规则时, 定义其概率值为1,否则为0。b. α规则法fa, ]r,,i (s,,r,) = 7>Me引入一个参数α,令P(Ak) = ^ J ’,采用α,1-α两个值定义分11 -a vr{, R(sl ’ r) = False词连写概率;c.逐条规则统计法对不同的规则采用不同的α值,对于规则j = 1,2,..., K,分别估计α」;1 在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为;2:统计这C,个串中实际被连写的串的个数,记为(山_);3 计算 α j 的估计值式=c,U)/cr(j)。b中,所述参数α的值的选取有两种方法方法一采用一个开发集调试,变换参数值,寻找使盲-汉转换性能最好的参数值;方法二 采用一个训练集,在训练集上直接估计α的值,估计方法如下1 在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为q ;1, BrjiR(S^rj) = True 0 VrjiR(S^rj) = Fahe2 统计这q个串中实际被连写的串的个数,记为Ct ;3 计算 α 的估计值 =在步骤200中,利用盲文中的声调信息,筛除声调不相符的候选汉语句子。在步骤200中,采用基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果,当后文中有未标调词出现时,先和已经记录的标调词比较盲文字符是否相同,若相同,则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。所述步骤300之后,包括下列步骤步骤400.根据自然语言规则对所述最终汉字句子进行修改,并将修改的结果存入缓冲区作为自适应语料,建立基于cache的自适应模型,对盲汉转换模型进行调整,得到优化的盲汉转换模型。为实现本专利技术的目的还提供一种盲文输入系统,所述系统,包括模型构造模块,用于根据N-gram语言模型,结合汉语盲文分词连写规则构造盲汉转换模型;候选搜索模块,用于根据输入的盲文句子B,列出其对应的所有候选汉语句子S ;盲汉转换模块,用于利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P (S I B),取P (S I B)值最大的对应的汉语词串的序列S = S1,作为最终汉语句子输出。所述模型构造模块,包括分词连写概率获取模块,用于利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B的分词连写概率P (B I S)P(万 I S) = P(ZJ1Z)2...^ 15,52-^) = 17^/1其中,P(bi|Si)表示汉语词串/=1fSi在分词连写规则下对应一个盲文词bi的概率;汉语词概率获取模块,用于根据N-gram语言模型,获取汉语词概率P (S);P(S) =P (W1W2. . . WT) =P本文档来自技高网
...

【技术保护点】
1.一种盲文输入方法,其特征在于,所述方法,包括下列步骤:步骤100.根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;步骤200.根据输入的盲文句子B,列出其对应的所有候选汉语句子S;步骤300.利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B),取P(S|B)值最大的对应的汉语词串的序列S=s1s2...sm作为最终汉语句子输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:王超王向东钱跃良林守勋
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1