信息提取方法和装置制造方法及图纸

技术编号:3889925 阅读:177 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及信息提取方法和装置。用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。

【技术实现步骤摘要】

本专利技术总体上涉及计算机信息处理技术,并且尤其是涉及从诸如网页、文档、新闻 等之类的信息源中提取涉及特定主题的相关信息的技术。
技术介绍
存在许多包含有大量信息的、用自然语言来表述内容的网页、文档和新闻等信息 源。目前已经提出了很多信息提取技术用来从这些信息源中提取有用的信息,例如涉及特 定主题的评价信息等。现有的信息提取系统包括知从文本中提取关键词的系统,提取固有 名词和数值等的系统,以及提取意见和评判等的系统等。狭义的信息提取技术是指以特定 领域的文本为对象,利用事先准备好的应提取信息的模板(或者信息提取规则)来提取所 期望的有用信息。关于信息提取方面的技术,目前已发表了多篇的论文和/或提交了多篇专利申 请。例如,可参见由松下电器产业株式会社申请的、专利技术名称为“信息提取系统”、公开号 为CN1942877A的中国专利申请;由微软公司申请的、专利技术名称为“学习并使用广义串模式 用于信息提取”、公开号为CN1627300A的中国专利申请;等等。以提取涉及特定主题的评价 信息为例,从目前已经公开的各种信息提取技术的文献来看,已有的信息提取技术可以主 要分为以下两种类型(1)基于最近匹配的评价信息提取方法,其中首先对文档进行分词, 然后从中查找到目标词(例如,公司品牌名、产品名等)的位置,接着在目标词的附近搜寻 距其最近的评价词,并将这个评价词认定为对该目标词的评价;(2)基于完全语法分析的 评价信息提取方法,其中首先对文档进行分词,之后进行词性标注和完全语法分析,然后从 分析得到的语法树中查找目标词,并且按照语法树中的依赖关系,找到与之对应的评价词。然而,已有的各种基于信息提取规则的信息提取方法虽然可以提取与特定主题有 关的信息,但是都是基于目标词词典对目标词进行查找,对于包含了未出现在目标词词典 中的目标词则无法定位,因此,已有的各种信息提取方法中普遍存在不能有效处理多种信 息源的问题。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本 理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的 关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。为了至少部分地解决现有技术的上述问题,本专利技术的一个目的是提供一种改进的 信息提取方法和/或装置,本专利技术的目的在于,提供一种全自动的信息提取方法和/或信息 提取装置,用以从各种自然语言描述的已知或未知的信息源中提取涉及特定主题的有用信 肩、ο本专利技术的另一目的是,提供一种改进的评价信息提取方法和/或装置,其能够从诸如网上评论等之类的各种已知或未知的信息源中提取出用户对于某些特定品牌或者某 些特定产品的评论信息。为了实现上述目的,根据本专利技术的一个方面,提供了一种用于从输入的信息源中 提取涉及特定主题的有用信息的信息提取方法,包括基于描述了各类训练语素的组合概 率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述 定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向 量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信 肩、ο根据本专利技术的另一个方面,还提供了一种用于从输入的信息源中提取涉及特定主 题的有用信息的信息提取装置,包括资源和规则库,被配置成存储在执行信息提取时要用 到的、预定的涉及特定主题的各种资源和规则;描述向量提取器,被配置成通过参考所述 资源和规则库中存储的资源和规则,从输入的信息源中提取出涉及某些特定主题的描述向 量;以及信息生成器,被配置成基于所述描述向量提取器所提取出的描述向量,生成涉及特 定主题的全局性信息,以作为所述涉及特定主题的有用信息,其中,所述描述向量提取器进 一步包括语素定位单元,被配置成基于存储在所述资源和规则库中的、描述了各类训练语 素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;以及匹配单元,被 配置成按照存储在所述资源和规则库中的、涉及特定主题的预定匹配规则,对所述定位的 各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量。 依据本专利技术的其它方面,还提供了相应的计算机可读存储介质和计算机程序产PΡΠ ο本专利技术的一个优点在于,在根据本专利技术原理的信息提取方法和/或信息提取装置 中,由于采用了描述了各类训练语素的组合概率的分类模板,即可从各种信息源中定位感 兴趣的各类目标语素,因此可以提取出完全不限于已经收录在目标词词典中的更多目标语 素,因此能够获得更好的信息提取效果,而且适合于从海量信息源中提取出有用信息。本专利技术还有一个优点在于,可以将根据本专利技术原理的信息提取方法和/或信息提 取装置用于从诸如网友评论等之类的信息源中提取出用户对某些产品的评论意见,从而向 相关的企业或者公司提供所收集的用户评论意见,以便使企业或者公司可以及时地掌握用 户的喜好并据此迅速地做出反应,或者提供给产品的潜在用户,以便用户在购买前较为全 面地掌握其他用户对于该产品和/或类似产品的评论意见。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优 点将更加明显。附图说明本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本 专利技术的优选实施例和解释本专利技术的原理和优点。在附图中图1示出了根据本专利技术的第一实施例、从文档等信息源中提取有用信息的信息提 取方法100的示意性流程图2示出了根据本专利技术的第二实施例、从文档等信息源中提取有用信息的信息提 取方法200的示意性流程图;图3示出了根据本专利技术的第三实施例、从文档等信息源中提取描述向量的具体流 程图;图4示出了在根据本专利技术第三实施例的信息提取方法中用到的相关资源和训练 语料的例子;图5示出了在根据本专利技术一个实施例的信息提取方法中输入的文本、从该文本中 提取出的描述向量和据此得到的全局性评价信息的例子;图6示出了根据本专利技术的一个实施例、从文档等信息源中提取有用信息 的信息提 取装置600的示意性方框图;以及图7是示出其中实现本专利技术的计算机的示例性结构的框图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以 便有助于提高对本专利技术实施例的理解。具体实施例方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施 例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符 合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有 所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开 内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中 仅仅示出了本文档来自技高网
...

【技术保护点】
一种用于从输入的信息源中提取涉及特定主题的有用信息的信息提取方法,包括:基于描述了各类训练语素的组合概率的分类模板,从所述信息源中定位感兴趣的各类目标语素;按照预定的匹配规则对所述定位的各类目标语素进行匹配,并提取符合所述预定匹配规则的目标语素以组合成描述向量;以及基于所述提取出的描述向量,生成全局性信息以作为所述涉及特定主题的有用信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:贾文杰张姝孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1