一种分词方法和分词装置制造方法及图纸

技术编号:3873592 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及分词技术,针对现有分词方法存在的计算量较大以及对歧义词的辨识精确度较低的缺陷,提供一种分词方法和分词装置。分词方法包括接收输入的文字序列,提取其中包含的至少一个分词封装;对于提取的每一分词封装,提取该分词封装之中包含的文字串并输出。本发明专利技术还提供了一种分词装置。本发明专利技术提供的技术方案可在输入过程中自动完成对文字序列的切分,因此本发明专利技术提供的技术方案将大大降低现有分词操作的计算量,提高分词效率。此外,依据分词封装对文字序列的切分可精确的反映用户的真实切分意图,可大大提高文字序列的分词准确度。

【技术实现步骤摘要】

本专利技术涉及分词技术,更具体地说,涉及一种文字输入方法和文字输入装置。
技术介绍
作为自然语言分析等前沿技术的关键组成部分,分词技术在近年来受到了人们的广泛关注。所谓分词,就是将文字序列切分成一个一个单独的词。以中文分词技术为例,分词技术的目标就是将例如但不限于一句话切分为一个一个单独的中文词语。而将文字序列切分为单独的词,是实现机器识别人类语言的第一步,因此分词技术至关重要。 经过多年的发展,研究人员已先后开发出多种分词方法,包括例如但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等等。 基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待分析的文字序列与一个机器词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的标准,字符串匹配方法可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合的标准,又可以分为单纯分词方法和分词与标注相结合的一体化方法。基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。这种方法的基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。基于这种分词方法开发的分词系统通常包括三个部分分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,通过模拟人对句子的理解来达到分词的目标。 第三种分词方法是基于统计的分词方法。从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算例如两个汉字的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。 尽管可以达到很好的效果,但上述分词方法的计算量通常很大,因此往往需要专 门的高性能计算设备来完成分词操作。此外,对于文字序列之中存在的歧义词,上述分词方 法的辨识精确度较低。 因此,需要一种分词方案,能够克服现有技术之中存在的计算量较大的缺陷。
技术实现思路
本专利技术要解决的技术问题在于,针对现有分词方法存在的计算量较大以及对歧义词的辨识精确度较低的缺陷,提供一种分词方法和分词装置。 本专利技术解决其技术问题所采用的技术方案是 构造一种文字输入方法,包括 匹配步骤,包括接收输入的构字元素序列,查找并显示与该构字元素序列相匹配 的至少一个文字串; 所述方法还包括 封装步骤,包括接收输入的文字串选择命令,基于所显示至少一个文字串之中的 所选文字串生成对应的分词封装并输出。 在本专利技术提供的文字输入方法中,每一文字串包括至少一个文字字符。 在本专利技术提供的文字输入方法中,所述分词封装内顺序包含分词起始符、所选文字串和分词截止符。 在本专利技术提供的文字输入方法中,在所述分词封装中,所述分词起始符和所述分 词截止符的显示属性均为不可见。 在本专利技术提供的文字输入方法中,在所述分词封装中,所选文字串的显示属性为 可见。本专利技术还提供了一种文字输入装置,包括 匹配模块,用于接收输入的构字元素序列,查找并显示与该构字元素序列相匹配 的至少一个文字串; 所述装置还包括 封装单元,用于接收输入的文字串选择命令,基于所显示至少一个文字串之中的 所选文字串生成对应的分词封装并输出。在本专利技术提供的文字输入装置中,每一文字串包括至少一个文字字符。 在本专利技术提供的文字输入装置中,所述分词封装内顺序包含分词起始符、所选文字串和分词截止符。 在本专利技术提供的文字输入装置中,在所述分词封装中,所述分词起始符和所述分 词截止符的显示属性均为不可见。 在本专利技术提供的文字输入装置中,在所述分词封装中,所选文字串的显示属性为 可见。 本专利技术还提供了一种分词方法,包括 分词封装提取步骤,包括接收输入的文字序列,提取其中包含的至少一个分词封 装; 文字串提取步骤,包括对于提取的每一分词封装,提取该分词封装之中包含的文 字串并输出。 在本专利技术提供的分词方法中,每一分词封装内顺序包含分词起始符、文字串和分 词截止符。 在本专利技术提供的分词方法中,每一文字串包括至少一个文字字符。 在本专利技术提供的分词方法中,在每一分词封装中,分词起始符和分词截止符的显示属性均为不可见。 在本专利技术提供的分词方法中,在每一分词封装中,文字串的显示属性为可见。 本专利技术还提供了一种分词装置,包括 分词封装提取模块,用于接收输入的文字序列,提取其中包含的至少一个分词封装; 文字串提取模块,用于对于提取的每一分词封装,提取该分词封装之中包含的文 字串并输出。 在本专利技术提供的分词装置中,每一分词封装内顺序包含分词起始符、文字串和分 词截止符。 在本专利技术提供的分词装置中,每一文字串包括至少一个文字字符。 在本专利技术提供的分词装置中,在每一分词封装中,分词起始符和分词截止符的显示属性均为不可见。 在本专利技术提供的分词装置中,在每一分词封装中,文字串的显示属性为可见。 实施本专利技术的技术方案,具有以下有益效果借助现有文字输入方法之中的联想词输入方案,本专利技术提供的文字输入方法和文字输入系统将用户输入的每一联想词封装成对应的分词封装。如此一来便可得到由分词封装组成的文字序列,在输入过程中即自动完成了对文字序列的切分。接下来,在依据本专利技术提供的分词方法和分词装置对这种形式的文字序列进行分词处理时,通过识别其中的每一分词封装便可完成对文字序列的切分,因此本专利技术提供的技术方案将大大降低现有分词操作的计算量,提高分词效率。此外,分词封装是基于用户输入的联想词而生成的,因此依据分词封装对文字序列的切分可精确的反映用户的真实切分意图,这样一来便可有效避免对歧义词的错误识别,大大提高文字序列的分词准确度。附图说明 下面将结合附图及实施例对本专利技术作进一步说明,附图中 图1是依据本专利技术一较佳实施例的文字输入方法的流程图; 图2是依据本专利技术一较佳实施例的文字输入系统的逻辑结构示意图; 图3是依据本专利技术一较佳实施例的分词方法的流程图 图4是依据本专利技术一较佳实施例的分词装置的逻辑结构示意图。具体实施例方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。 本专利技术提高了一种文字输入方法和文字输入装置,借助现有文字输入方法之中的 联想词输入方案,将用户输入的每一联想词封装成对应的分词封装。如此一来便可得到由 分词封装组成的文字序列,在输入过程中即自动完成了对文字序列的切分。接下来,在通过 本专利技术提供的分词方法和分词装置对这种形式的文字序列进行分词处理时,通过识别其中 的每一分词封装便可完成对文字序列的切分,因此本专利技术提供的技术方案将大大降低现有 分词操作的计算量,提高分词效率。此外,分词封装是基于用户输入的联想词而生成本文档来自技高网
...

【技术保护点】
一种分词方法,其特征在于,包括:分词封装提取步骤,包括接收输入的文字序列,提取其中包含的至少一个分词封装;文字串提取步骤,包括对于提取的每一分词封装,提取该分词封装之中包含的文字串并输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:王有为刘克鸿刘飞杨旗杨丰马慧蒋铮
申请(专利权)人:卓望数码技术深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1