语言转换系统及方法技术方案

技术编号:2846710 阅读:272 留言:0更新日期:2012-04-11 18:40
公开了一种用于将正规语言转换为非正规语言的转换系统及其方法,所述系统包括分割模块、非正规语言词典模块和转换模块,其中,所述分割模块用于将正规语言分割为一个或多个单元,并将所述分割的单元输入所述转换模块;所述转换模块通过搜索所述非正规语言词典模块将所述输入的单元或单元组合转换为与其相对应的非正规语言并输出。使用本发明专利技术后,不仅可以显著地减少分配给服务用户的字符数量还能够为用户提供新鲜感和惊喜。

【技术实现步骤摘要】

本专利技术涉及一种语言转换系统和方法,尤其涉及一种能够将正规语言转换为网络非正规语言(NILNetwork Informal Language)的转换系统和方法。
技术介绍
目前,ICQ、SMS等分别是通过网络和移动电话实现的非常流行的人与人之间的通信渠道。通过这些渠道的信息具有一些共同的特征,例如这些信息都是较短的、非正规的、充满行话的并且通常都是不合文法的语言。这就导致了一种与正规语言完全不同的新的语言,网络非正规语言的产生。具体地说,NIL是指用于网络通信环境中的语言,例如网络聊天室(ICQ),电子布告栏系统(BBS),短信服务(SMS),以及电子邮件(Email)。如今,NIL的表达普遍存在,并具有许多优势,例如,在个人电子邮件中,NIL可增加了表达效果和吸引力;在ICQ和SMS中,NIL可节省字符及显示空间。甚至在一些客户关系管理(CRM)方案中,在进行联机客户服务时应用NIL,从而在提供具有吸引力的聊天方式的同时,还为客户节省显示空间和阅读时间。然而NIL与正规语言之间存在的上述差异使得NIL几乎不能被局外人所理解。这导致了大众和ICQ/SMS使用迷之间日益增加的文化差异,造成了人们之间沟通的不便。因此,无论在商业中还是社会中都存在减小这种差异的迫切需要,因此,需要一种从正规语言到网络非正规语言的转换系统和方法。
技术实现思路
本专利技术的目的在于提供一种从正规语言到NIL的转换系统和方法。根据本专利技术的一个方面,本专利技术提供了一种用于将正规语言转换为非正规语言的转换系统,包括分割模块、非正规语言词典模块和转换模块,其中,所述分割模块用于将正规语言分割为一个或多个单元,并将所述分割的单元输入所述转换模块;所述转换模块通过搜索所述非正规语言词典模块将所述输入的单元或单元组合转换为与其相对应的非正规语言并输出。根据本专利技术的另一个方面,本专利技术提供了一种用于将正规语言转换为非正规语言的方法,包括a)将正规语言分割为一个或多个单元;b)搜索一非正规语言词典,将所述输入的单元或单元组合转换为与其相对应的非正规语言。根据本专利技术的优选实施方式,所述非正规语言词典可以通过电子布告栏系统、网络聊天室、短信服务以及电子邮件中的至少一个创建。所述非正规语言词典模块可通过非正规语言索引、正规语言索引或分类索引来进行检索。所述分割模块还可具有智能分割功能,其依据一预定词典应用最长匹配原则对所述正规语言进行分割,其中,所述分割模块应用最长匹配原则将正规语言优先分割成与所述预定词典中最长的词汇相匹配的单元。所述分割模块还进一步采用隐马尔科夫模型方法。优选地,所述转换模块应用最长匹配原则将从所述分割模块接收的单元或单元组合转换为与其相对应的非正规语言。根据本专利技术的系统和方法可应用于SMS供应商,其潜在的价值优点可以至少分为两个方面。第一,由于NIL能够显著地减少分配给服务用户的字符数量,所以用户仅需更小的空间来显示信息,这对以手机为平台的短信服务具有更大的吸引力;第二,NIL通过不断学习联机互联网BBS系统中的聊天文本创建和更新,所以采用的信息能够为用户提供新鲜感和惊喜,从而更能吸引客户的注意,这在CRM中具有吸引力。附图简要说明附图说明图1为根据本专利技术优选实施方式的从正规语言到NIL的转换系统的示意方框图;图2为实现从正规语言转换为NIL的流程图;图3为根据本专利技术优选实施方式的示意性的系统界面实现图。具体实施例方式下面将参照附图,对本专利技术优选的实施方式进行详细描述。图1是根据本专利技术优选实施方式的从正规语言到NIL的转换系统100的示意方框图。根据本专利技术的转换系统100的输入是正规语言,包括文本输入和语音输入。这里及在下文中所述的正规语言可以是由多个字符(如中文字、日文字和韩文字等)或多个单词(例如英文词、德文词和法文词等)组成,也可以是单个单词或字符组成,如英文中的“Fine”,汉语中的“是”、“好”、“是不是”等。如图1所示,转换系统100包括分割模块10、NIL词典模块30和转换模块20。下面分别对这些模块进行详细的描述。分割模块10用于分割输入的正规语言。以英文为代表的拉丁语系语言中天然存在着单词之间的空格,其分割原则上以此天然空格来实现。但是,优先考虑这些语言中的固定词组。例如,当输入的正规语言为“Please call meas soon as possible”时,其优先分割为Please/call/me/as soon as possible/,而不是Please/call/me/as/soon/as/possible/。这样,可以节省一下将要介绍的转换模块的操作时间。中文等语言则不同。以中文为例,在中文中除了标点符号外不存在空格,这就给中文分割造成了很大困难。因此,根据本专利技术优选实施方式的分割模块10优选具有包括智能分割功能。具体地说,所述分割模块要选择一种预定的常规中文词典作为分割的依据和参照。该中文词典中可以包含单个的中文字,例如,“你”,“我”,“他”等,中文词组,例如“健康”,“大学”,中文成语,例如“再接再厉”,中文习语,例如“老鼠爱大米”等等。在对输入的正规语言进行分割时,根据作为参照物的预定词典,可以采用最长匹配原则消除可能的歧义。例如,输入到分割模块10的正规语言为“你说的是不是他?”时,以上述预定词典为分割的参照物,该输入可分割为“你”、“说”“的”、“说的”“是”“不是”、“是不”、“是不是”、“是他”以及“他”等。这时,依据最长匹配原则上述输入的正规语言优先分割为“你/说的/是不是/他?”。其它可能的分割由于不满足最长匹配原则而不会出现。虽然在上面例举了对正规语言“你说的是不是他?”进行分割的处理,但本领域的普通技术人员应该认识到,转换模块10的输入可以是单个汉字,例如“好”、“是”等,也可以是多个汉字组成的词,例如“好不好、“是不是”等,也可以是由多个词构成的句子。为了提高中文分割的质量,根据本专利技术优选实施方式的分割模块10还可以采用公知的隐马尔科夫模型(HMM)方法。在本专利技术的优选实施方式中将输入的正规语言作为信号,借助上述词典和常识知识,在HMM模型的状态转换过程当中消除词汇在分割时产生的歧义以提高分割的质量。本专利技术使用的HMM方法利用了张华平、余红辉、熊德意、刘群在第二届SIGHAN中文语言处理研讨会论文集(2003年7月,第184到187页)发表的名称为“基于HHMM的汉语词法分析器ICTCLAS(HHMM-based Chinese LexicalAnalyzer ICTCLAS)”中公开的方法,其公开的内容并入本文作为参考。此外,本领域的普通技术人员应该认识到,利用HMM方法实现上述文本分割还需要一些统计知识,例如N元文法(N-Gram),即在现有标注语料库(例如北大语料库)的基础上,通过统计分析计算某词汇与另一次将按照某种次序出现的频率。例如,“他/是不是”是一个2元文法的例子,它的出现频率是231。出现频率高的2元文法输出该分割的概率就高。NIL词典模块30可通过ICQ、BBS、SMS、Email中至少一个创建,当然还可以通过其它文本来建立。在本专利技术优选实施方式中,NIL词典模块30是通过研究互联网的BBS系统中的聊天文本而创建的。根据本专利技术优选实施方式的NIL词本文档来自技高网...

【技术保护点】
一种用于将正规语言转换为非正规语言的转换系统,包括分割模块、非正规语言词典模块和转换模块,其中,所述分割模块用于将正规语言分割为一个或多个单元,并将所述分割的单元输入所述转换模块;所述转换模块通过搜索所述非正规语言词典模块将所述输入的单元或单元组合转换为与其相对应的非正规语言并输出。

【技术特征摘要】
1.一种用于将正规语言转换为非正规语言的转换系统,包括分割模块、非正规语言词典模块和转换模块,其中,所述分割模块用于将正规语言分割为一个或多个单元,并将所述分割的单元输入所述转换模块;所述转换模块通过搜索所述非正规语言词典模块将所述输入的单元或单元组合转换为与其相对应的非正规语言并输出。2.如权利要求1所述的转换系统,其中,所述非正规语言词典模块通过电子布告栏系统、网络聊天室、短信服务以及电子邮件中的至少一个创建。3.如权利要求2所述的转换系统,其中,所述非正规语言词典模块通过非正规语言索引、正规语言索引或分类索引来进行检索。4.如权利要求1所述的转换系统,其中,所述分割模块还具有智能分割功能,其依据一预定词典应用最长匹配原则对所述正规语言进行分割。5.如权利要求4所述的转换系统,其中,所述分割模块应用最长匹配原则将所述正规语言优先分割成与所述预定词典中最长的词汇相匹配的单元。6.如权利要求5所述的转换系统,其中,所述分割模块进一步采用隐马尔科夫模型方法。7如权利要求1到6中任一项所述的转换系统,其中,所述转换模块应用最长匹配原则将从所述分割模块接收的单元或单元组合转换为与其相对应的非正规语言。8.如权利要求7所述的转换系统,其中,所述多个单...

【专利技术属性】
技术研发人员:黄锦辉夏云庆
申请(专利权)人:香港中文大学
类型:发明
国别省市:HK[中国|香港]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1