汉字输入系统中的文风学习方法及装置制造方法及图纸

技术编号:2888683 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种汉字拼音输入系统中使用的文风学习方法以及装置。词间关系表在一定程度上体现了用户的文风。而词间关系表与拼音字词关系表一样,其大小将直接关系到汉字输入系统的正确性和速度。本发明专利技术的方法包含下列步骤:输入汉语文章;从文章中取出一句句子;查找已有的拼音字词关系表,将句子分割成字段;将字段之间的连接关系登录到词间关系表中。本发明专利技术还提供了实现这种方法的装置。(*该技术在2017年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及汉字的拼音输入系统,尤其涉及汉字输入系统中使用的词间关系表的扩充方法以及装置,这种方法和装置用于学习用户的文风。本专利技术与本申请人与同日提出的名称为“拼音汉字变换方法及其系统”的专利技术专利申请以及名称为“汉字输入系统中的拼音字词关系表自动登录方法及装置”有关。本申请援引这两专利申请,作为参考。在前一申请中,提供了一种拼音汉字变换方法及其系统,在这种方法和系统中,利用了拼音字词关系表查找输入的拼音码所对应的字或词,以利用提高输入速度。在后一申请中,用于自动地扩充拼音字词关系表,以增加拼音字词关系表的数据量,提高转换的正确性和速度。同样,对于汉字输入系统中的词间关系表的数据量大小也将影响到汉字输入系统的正确性的速度。每个人所用的语言文字作风,即文风各有特点,而词间关系表中所存储的就是体现这种文风词与词之间的关系,所以我们可以把词间关系表的扩充方法和装置称为“文风学习方法及装置”。因此,本专利技术的目的就是提供一种文风学习方法。利用这种方法,在汉字拼音输入系统中,可以自动地增加词间关系表中原先没有的词与词之间的关系,扩充词间关系表。本专利技术的另一个目的在于提供一种文风学习装置,这种装置可以自动地把词间关系表中原先没有的词与词之间的关系加入到词间关系表中,自动地扩充词间关系表。本专利技术的文风学习方法包含下列步骤(1)输入汉语文章;(2)从文章中取出一句句子;(3)查找已有的拼音字词关系表,将句子分割成字段;(4)将字段之间的连接关系登录到词间关系表中。本专利技术还提供了一种实现本专利技术方法的文风学习装置,包含拼音字词关系表,用于存储拼音与所对应词的映射关系;词间关系表,用于存储词与词之间的连接关系;接收装置,用于接收汉语文章;分句装置,与所述接收装置相连,用于从所述接收装置中取得汉语文章,并取出一句句子;句子分割装置,与所述分句装置和所述拼音字词关系表相连,用于根据所述拼音字词关系表中已存储的词把所述分句装置输出的汉语句子分割成字段;词间关系学习装置,与句子分割装置相连,用于把所述字段或词之间的连接关系登录到所述词间关系表中。如上所述,用户只要向文风学习装置提供一篇具有代表的文章,本专利技术的方法或装置就能自动地学习到用户的文风,自动地扩充词间关系表。下面结合附图详细描述本专利技术的实施例。附图说明图1是本专利技术的文风学习方法的流程图;图2是本专利技术的文风学习装置的方框图下面首先参照图1来描述本专利技术的文风学习方法。请参见图1,图1示出了本专利技术的文风学习方法的流程图。首先,在步骤S1输入汉语文章。这篇文章可以是一篇已经输入的现成的文本文件,也可以通过输入装置,如键盘等输入。然后,在步骤S2,判断能否从文章中取出句子。取出句子的方法可以通过判别能否找到表示句子停顿的标点符号来进行。例如,寻找例如逗号、句号、问号、感叹号、分号等表示停顿的标点符号。把这些标点符号前的汉字取出作为一句句子。在本实施例中,为便用说明和理解,我们假设在步骤S2可以取出句子(也说明没有到文章的结尾),并在步骤S3取得的句子为“公司组织到张家界旅游”。然后,在步骤S4,把输入的句子分割成字段。即,对照已有的拼音字词关系表,把句子中与已有的拼音字词关系表中存储的词一致的词分割成一个字段。在本例中,假设拼音字词关系表中已经存储了“公司”、“组织”和“旅游”。则,把这一句子分割成这些字段“公司”、“组织”、“到”、“张”、“家”、“界”、“旅游”。在分割出的字段中,有4个连续的单字字段。这些字段中只有一个汉字,因此可以根据上面提到的名称为“汉字输入系统中的拼音字词关系表自动登录方法及装置”中提供的自动登录方法及装置把这些单字字段组成新词并登录到拼音字词关系表中。由于组成新词及登录到拼音字词关系表的内容已在上述专利申请中作了详细描述,因此,把该专利申请援引于此,作为参考。假设,通过拼音字词关系表自动登录,把“张”、“家”、“界”组成了一个新词“张家界”,并登录到拼音字词关系表中。然后,在步骤S7,将相邻字段或词之间的连接关系登录到词间关系表中。即,在本例中,把“公司”与“组织”之间的连接关系登录到词间关系表中,把“组织”与“到”之间的关系登录到词间关系表中,把“到”与“张家界”之间的关系登录到关系表中,依此类推。然后,流程返回步骤S2,判断能否取出下一句句子,如果文章已经到了结尾,则流程转向步骤S14结束。否则,对每一句句子进行上述步骤,直至文章结束。虽然,在上述的文风学习方法中包括了拼音字词关系表的登录步骤,但应当理解,这些登录步骤对于文风学习方法并不是必需的。以上详细描述了本专利技术的方法,下面结合图2描述本专利技术实现上述方法的装置。参见图2,图2示出了实现图1所示的文风学习方法的文风学习装置。如图2所示,文风学习装置由分句装置1、句子分割装置2、拼音字词关系表登录装置3、词间关系学习装置4、拼音字词关系表5和词间关系表6组成。分句装置1用于从输入的汉语文章中取出一句句子。然后把句子提供给句子分割装置2。分割装置2利用拼音字词关系表5,把句子中与已有的拼音字词关系表5中存储的词一致的词分割成字段(由于在描述方法时已经作了例举,所以在描述装置时不再举例,可参见上面的例子)。然后,把这些字段输出组拼音字词关系表登录装置3。关于拼音字词关系表登录装置3的结构以及工作情况在上述的名称为“汉字输入系统中的拼音字词关系表自动登录方法及装置”中已有详细描述,因此把该专利申请援引于此,以作参考。然后,在词间关系学习装置4中,把所述字段或词之间的连接关系登录到词间关系表6中。虽然,在上述的文风学习装置中包括了拼音字词关系表登录装置3,但应当理解,该拼音字词关系登录装置3对于文风学习装置并不是必需的。可以把句子分割装置2直接与词间关系学习装置4相连。上面已通过实施例对本专利技术作了详细的描述,但本
的技术人员应当理解,上述的方法和装置可以利用软件或硬件来实现,也可以利用软、硬件相结合的方式来实现。权利要求1.一种文风学习方法,其特征在于,包含下列步骤输入汉语文章;从文章中取出一句句子;查找已有的拼音字词关系表,将句子分割成字段;将字段之间的连接关系登录到词间关系表中。2.一种实现权利要求1所述方法的文风学习装置,其特征在于,包含拼音字词关系表,用于存储拼音与所对应词的映射关系;词间关系表,用于存储词与词之间的连接关系;接收装置,用于接收汉语文章;分句装置,与所述接收装置相连,用于从所述接收装置中取得汉语文章,并取出一句句子;句子分割装置,与所述分句装置和所述拼音字词关系表相连,用于根据所述拼音字词关系表中已存储的词把所述分句装置输出的汉语句子分割成字段;词间关系学习装置,与句子分割装置相连,用于把所述字段或词之间的连接关系登录到所述词间关系表中。全文摘要本专利技术提供了一种汉字拼音输入系统中使用的文风学习方法以及装置。词间关系表在一定程度上体现了用户的文风。而词间关系表与拼音字词关系表一样,其大小将直接关系到汉字输入系统的正确性和速度。本专利技术的方法包含下列步骤:输入汉语文章;从文章中取出一句句子;查找已有的拼音字词关系表,将句子分割成字段;将字段之间的连接关系登录到词间关系表中。本专利技术还提供了实现这种方法的装置。文档编号G06F3/023GK1206870SQ97115本文档来自技高网
...

【技术保护点】
一种文风学习方法,其特征在于,包含下列步骤:输入汉语文章;从文章中取出一句句子;查找已有的拼音字词关系表,将句子分割成字段;将字段之间的连接关系登录到词间关系表中。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈奕秋
申请(专利权)人:上海欧姆龙计算机有限公司
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1