提取文本特征的装置和方法制造方法及图纸

技术编号:14299214 阅读:59 留言:0更新日期:2016-12-26 04:29
本发明专利技术涉及提取文本特征的装置和方法。一种提取文本特征的装置,包括:分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;重要性计算单元,被配置为计算每个词的重要程度;词性权重计算单元,被配置为计算每个词的词性的权重;词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。根据本发明专利技术的装置和方法,将词性和词性组合对文本特征的贡献融入特征提取方法中,对文本信息的提取更加充分,处理实时数据的速度更快。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,更具体地涉及一种提取文本特征的装置和方法
技术介绍
随着互联网信息不断的增长,文本数据越来越多,同时随着网络的飞速发展,为人们提供了简便的信息获取途径,网页、邮件、电子书籍等电子文档的数量越来越多,人们获得大量信息的同时,也不得不花大量的时间来阅读和整理这些信息,因此怎样简便、快捷、准确地获取这些文本的关键信息就变得异常重要。由于中文基础性分词领域的处理比较复杂,导致了中文信息抽取技术相对落后,因此中文文本的信息提取技术越来越重要。一类传统的文本提取方法是计算文档词频,即在训练文本集中对每个特征计算它的文档频数和词频,这样的计算方法存在的问题是:(1)没有考虑词性对文本特征的贡献(2)没有考虑语义结构对文本特征的描述。目前,在大部分的文本特征提取方法及其改良方法中,所采用的传统的词频逆向文档频率方法只是单一的计算词频,没有引入词性和句子结构对文本特征提取的影响因素。同时,不同的文本语言,其句子结构差距较大,很难将统一的提取方法应用于不同文本语言。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的一个主要目的在于,提供一种提取文本特征的装置,包括:
分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;重要性计算单元,被配置为计算每个词的重要程度;词性权重计算单元,被配置为计算每个词的词性的权重;词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。根据本专利技术的一个方面,提供了一种提取文本特征的方法,包括:对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;计算每个词的重要程度;计算每个词的词性的权重;计算每个词与其相邻词的词性组合的权重;以及对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。另外,本专利技术的实施例还提供了用于实现上述方法的计算机程序。此外,本专利技术的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1示出了根据本专利技术的一个实施例的提取文本特征的方法100的示例性过程的流程图;图2是示出图1中的步骤S106的一种示例性过程的流程图;图3示出了词性权重的计算过程的一个具体示例;图4是示出图1中的步骤S108的一种示例性过程的流程图;图5是示出词性和词性组合的层次结构图;图6示出了根据本专利技术的一个实施例的提取文本特征的方法的系统结构图;图7是示出根据本专利技术的一个实施例的提取文本特征的装置700的示例性配置的框图;图8是示出图7中的词性权重计算单元706的一种示例性配置的框图;图9是示出图7中的词性组合权重计算单元708的一种示例性配置的框图;以及图10是示出可以用于实施本专利技术的提取文本特征的装置和方法的计算设备的示例性结构图。具体实施方式下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。本专利技术提出一种基于词性和词的相对位置以及词的重要程度的文本特征提取方法。本专利技术在文本特征提取方法上与传统方法有本质的区别。传统的方法只考虑了词的重要程度,例如词频或者逆向词频作为文本特征。为了引入词性和词的相对位置对特征的贡献,本专利技术通过计算词性的权重和词的相对位置的权重,再将这两个权重与词的重要程度结合来确定最终的文本特征。这样就将词性和词的位置信息对文本特征的贡献融入特征提取方法中。下面结合附图详细说明根据本专利技术的一个实施例的提取文本特征的方法和装置。图1示出了根据本专利技术的一个实施例的提取文本特征的方法100的示例性过程的流程图。首先,在步骤S102中,对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合。这里,每个词与其相邻词的词性组合也即表示以上所述词的相对位置的信息。在一个示例中,可以基于隐马尔可夫模型进行分词来得到分词、词性和每个词与其相邻词的词性组合。对文档进行分词可采用的具体手段或方式为本领域技术人员所熟知,
在此不再赘述。接下来,在步骤S104中,计算每个词的重要程度。可以用词频、词频-逆向文件频率(TF-IDF)等来表示词的重要程度。在下面的说明中,都以词频-逆向文件频率为例来表示词的重要程度。接下来,在步骤S106中,计算每个词的词性的权重。图2是示出图1中的步骤S106的一种示例性过程的流程图。如图2所示,在计算词性的权重时,首先在步骤S1062中构造词性比较矩阵。即根据词性的重要程度,两两比较所给出的所有词性之间的重要程度,之后给出打分,用所有打分来构造词性比较矩阵。在一个示例中,可以基于层次分析法来构造词性比较矩阵。在一个示例中,可以采用下面的表1进行打分,来构建词性比较矩阵。表1 1-9得分表也就是说,当两个因素同样重要时,得分为1,当因素1比因素2稍微重要则得分为2,那么因素2与因素1比较时,得分为1/2,以此类推,可两两比较所有词性的重要程度来进行打分。用所有打分可以构造如下词性比较矩阵A。接着,在步骤S1064中,计算词性比较矩阵的最大特征根所对应的特征向量。然后,在步骤S1066中,对特征向量进行归一化得到词性的权重。在一个示例中,在计算词性比较矩阵的最大特征根所对应的特征向量的步骤之前,还包括确定该词性比较矩阵的逻辑是否成立的步骤(图中未示出)。在一个示例中,通过对词性比较矩阵进行一致性检验,来确定该词性比较矩阵的逻辑是否成立。图3示出了词性权重的计算过程的一个具体示例。首先,在步骤S301中输入所构造的比较矩阵。在步骤S302中,计算该矩阵的特征最大根。在步骤S303中,计算一致性指标CI=(λmax-m)/(m-1),查找相应的平均随机一致性指标RI,然后计算一致性比例CR=CI/RI。在步骤S304中,进行判断,当CR<0.1时,认为该矩阵的一致性是可接受的,其逻辑可以成立,继续执行步骤S305;如果不满足CR<0.1,则通过修改打分来调整比较矩阵,并重复执行以上步骤S302至步骤S304。在步骤S305中,计算最大特征根对应的特征向量。最后,在步骤S306中,对计算得到的特征向量进行归一化,可以得到词性的权重。在计算每个词的词性的权重的步骤S106之后,在步骤S108中,计算每个词与其相邻词的词性组合的本文档来自技高网
...
提取文本特征的装置和方法

【技术保护点】
一种提取文本特征的装置,包括:分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;重要性计算单元,被配置为计算每个词的重要程度;词性权重计算单元,被配置为计算每个词的词性的权重;词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。

【技术特征摘要】
1.一种提取文本特征的装置,包括:分词单元,被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合;重要性计算单元,被配置为计算每个词的重要程度;词性权重计算单元,被配置为计算每个词的词性的权重;词性组合权重计算单元,被配置为计算每个词与其相邻词的词性组合的权重;以及文本特征提取单元,被配置为对于每个词,根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。2.根据权利要求1所述的装置,其中,所述词性权重计算单元包括:第一比较矩阵构造子单元,被配置为对词性的重要程度两两进行比较并打分,构造第一比较矩阵;第一特征向量构造子单元,被配置为计算所述第一比较矩阵的最大特征根所对应的第一特征向量;以及词性权重计算子单元,被配置为对所述第一特征向量进行归一化得到所述词性的权重。3.根据权利要求2所述的装置,其中,所述词性组合权重计算单元包括:第二比较矩阵构造子单元,被配置为对词性组合的重要程度两两进行比较并打分,构造第二比较矩阵;第二特征向量构造子单元,被配置为计算所述第二比较矩阵的最大特征根所对应的第二特征向量;以及词性组合权重计算子单元,被配置为对所述第二特征向量进行归一化得到所述词性组合的权重。4.根据权利要求3所述的装置,其中,所述词性权重计算单元还包
\t括第一逻辑确定子单元,被配置为确定所述第一比较矩阵的逻辑是否成立,以及所述...

【专利技术属性】
技术研发人员:杨振华皮冰锋周恩策孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1