提取文本特征的装置和方法制造方法及图纸

技术编号：14299214 阅读：59 留言：0更新日期：2016-12-26 04:29

本发明专利技术涉及提取文本特征的装置和方法。一种提取文本特征的装置，包括：分词单元，被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合；重要性计算单元，被配置为计算每个词的重要程度；词性权重计算单元，被配置为计算每个词的词性的权重；词性组合权重计算单元，被配置为计算每个词与其相邻词的词性组合的权重；以及文本特征提取单元，被配置为对于每个词，根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。根据本发明专利技术的装置和方法，将词性和词性组合对文本特征的贡献融入特征提取方法中，对文本信息的提取更加充分，处理实时数据的速度更快。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理领域，更具体地涉及一种提取文本特征的装置和方法。
技术介绍
随着互联网信息不断的增长，文本数据越来越多，同时随着网络的飞速发展，为人们提供了简便的信息获取途径，网页、邮件、电子书籍等电子文档的数量越来越多，人们获得大量信息的同时，也不得不花大量的时间来阅读和整理这些信息，因此怎样简便、快捷、准确地获取这些文本的关键信息就变得异常重要。由于中文基础性分词领域的处理比较复杂，导致了中文信息抽取技术相对落后，因此中文文本的信息提取技术越来越重要。一类传统的文本提取方法是计算文档词频，即在训练文本集中对每个特征计算它的文档频数和词频，这样的计算方法存在的问题是：(1)没有考虑词性对文本特征的贡献(2)没有考虑语义结构对文本特征的描述。目前，在大部分的文本特征提取方法及其改良方法中，所采用的传统的词频逆向文档频率方法只是单一的计算词频，没有引入词性和句子结构对文本特征提取的影响因素。同时，不同的文本语言，其句子结构差距较大，很难将统一的提取方法应用于不同文本语言。
技术实现思路
在下文中给出关于本专利技术的简要概述，以便提供关于本专利技术的某些方面的基本理解。应当理解，这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分，也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。本专利技术的一个主要目的在于，提供一种提取文本特征的装置，包括：
分词单元，被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合；重要性计算单元，被配...
提取文本特征的装置和方法

【技术保护点】
一种提取文本特征的装置，包括：分词单元，被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合；重要性计算单元，被配置为计算每个词的重要程度；词性权重计算单元，被配置为计算每个词的词性的权重；词性组合权重计算单元，被配置为计算每个词与其相邻词的词性组合的权重；以及文本特征提取单元，被配置为对于每个词，根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。

【技术特征摘要】
1.一种提取文本特征的装置，包括：分词单元，被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合；重要性计算单元，被配置为计算每个词的重要程度；词性权重计算单元，被配置为计算每个词的词性的权重；词性组合权重计算单元，被配置为计算每个词与其相邻词的词性组合的权重；以及文本特征提取单元，被配置为对于每个词，根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。2.根据权利要求1所述的装置，其中，所述词性权重计算单元包括：第一比较矩阵构造子单元，被配置为对词性的重要程度两两进行比较并打分，构造第一比较矩阵；第一特征向量构造子单元，被配置为计算所述第一比较矩阵的最大特征根所对应的第一特征向量；以及词性权重计算子单元，被配置为对所述第一特征向量进行归一化得到所述词性的权重。3.根据权利要求2所述的装置，其中，所述词性组合权重计算单元包括：第二比较矩阵构造子单元，被配置为对词性组合的重要程度两两进行比较并打分，构造第二比较矩阵；第二特征向量构造子单元，被配置为计算所述第二比较矩阵的最大特征根所对应的第二特征向量；以及词性组合权重计算子单元，被配置为对所述第二特征向量进行归一化得到所述词性组合的权重。4.根据权利要求3所述的装置，其中，所述词性权重计算单元还包
\t括第一逻辑确定子单元，被配置为确定所述第一比较矩阵的逻辑是否成立，以及所述...

【专利技术属性】
技术研发人员：杨振华，皮冰锋，周恩策，孙俊，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人