中文机器阅读系统技术方案

技术编号:9751105 阅读:124 留言:0更新日期:2014-03-09 08:03
本发明专利技术公开了一种中文机器阅读系统,包括数据抓取模块、数据处理模块、数据抽取模块、知识库、数据整合模块和使用接口;数据抽取模块包括wiki内容抽取模块、模板抽取模块、实体抽取模块、关系抽取模块和模板匹配模块。与现有技术相比,本发明专利技术使用开放式抽取方法,不限定抽取领域,能够读取互联网上广泛存在的非结构化文本信息,适于推广应用,并能够自适应中文语言的进化。

【技术实现步骤摘要】
中文机器阅读系统
本专利技术涉及中文阅读
,特别涉及一种中文阅读系统。
技术介绍
随着大数据时代的到来,越来越多的数据以文本的形式被发布到网上。如何对网络数据进行理解成为了更加紧迫和急需解决的问题。其中一个方式就是把非结构化的文本数据组织成机器能够识别并使用的结构化数据(如词与词之间的关系),为未来进行一系列的推理、识别打下基础。结构化的数据可以用于做语义消歧,根据词之间的关系可以推断词的含义。另外现有技术对文本共现频率的统计,仅限于使用窗口进行滑动,进而统计两个词共同出现的频率;或者使用语言模型统计连续出现的词的频率。而随着计算能力的提高,共现可以进行归类,语言模型也可以不局限于连续出现的词的统计。在文本处理领域,英文的机器阅读已经得到了相当大的发展。例如NeverEndingLanguageLearning(NELL)系统,通过英文文本的概念和实体之间的关系,对互联网数据进行特征提取和学习,从而得到更多的概念和实体。又比如Textrunner(Reverb)系统,通过使用一系列正则表达式和简单的机器学习方法,来实现开放式的语言抽取。目前已有一些中文的知识库(如zhishi.本文档来自技高网...
中文机器阅读系统

【技术保护点】
中文机器阅读系统,其特征在于:包括数据抓取模块:抓取互联网上文本的非结构化数据;数据处理模块:把数据进行标准化处理;数据抽取模块:通过机器学习和模块匹配的方法,得到计算机能够处理的知识;知识库:存储的知识集群;数据整合模块:修复和改进知识库中的内容;使用接口:提供调用数据的接口;所述数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接,所述数据整合模块和使用接口与所述知识库连接。

【技术特征摘要】
1.中文机器阅读系统,其特征在于:包括数据抓取模块:抓取互联网上文本的非结构化数据;数据处理模块:把数据进行标准化处理;数据抽取模块:通过机器学习和模板匹配的方法,得到计算机能够处理的知识;知识库:存储的知识集群;数据整合模块:修复和改进知识库中的内容;使用接口:提供调用数据的接口;所述数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接,所述数据整合模块和使用接口与所述知识库连接;所述数据抽取模块包括:wiki内容抽取模块:提取wiki的内容进行抽取;模板抽取模块:根据wiki中得到的内容初始化模板;实体抽取模块、关系抽取模块:对已有的实体和关系进行学习;模板匹配模块:根据获得的模板,使用正则表达式进行匹配,得到备选的新知识;所述数据抽取模块中数据的流向具体包括:数据通过wiki内容抽取模块提取为实体列表和三元组,所述实体列表和三元组通过实体抽取模块、关系抽取模块抽取为实体和关系后,在模板抽取模块初始化模板,并通过模板匹配模块匹配模板,经过匹配后的关系,流向关系抽取模块,判断是否被列为知识库中的内容。2.根据权利要求1所述的中文机器阅读系统,其特征在于:所述数据抓取模块的抓取方法包括以下步骤:1)使用URL种子,通过graphpropagation的方式传播抓取网页;2)对于抓取下来的网页,分析HTML的结构化数据,抽取非结构化的文本信息;3)使用Hadoop框架,利用URL数据进行抓取非结构化文本信息;4)使用Lucene和Neo4J两种存储框架,Lucene对非结构化网页进行处理和检索,Neo4J存储URL的图结构。3.根据权利要求1所述的中文机器阅读系统,其特征在于:所述数据处理模块把数据进行标准化处理,包括以下步骤:1)中文分词:使用分词器对中文进行分词处理,经过分词的文章和句子存储到Lucene数据库;2)词性标注:对于中文分词的结果进行词性标注,并将词性标注的结构存储到Lucene数据库;3)标准化处理:特征抽取中文单词,所述特征为根据中文单词曾经出现的频率加权,并进行全局上的归一化。4.根据权利要求1所述的中文机器阅读系统,其特征在于:所述wiki内容抽...

【专利技术属性】
技术研发人员:秦谦宋阳秋常凯斯
申请(专利权)人:江苏名通信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1