一种基于深度学习的信息技术数据实体属性抽取方法技术

技术编号:22565185 阅读:14 留言:0更新日期:2019-11-16 12:03
一种基于深度学习的信息技术数据实体属性抽取方法,包括以下具体步骤;构建爬虫程序;并将爬虫程序驻留在数据库服务器上;根据用户输入的关键词请求,从指定的数据库中爬取待抽取文本;对抽取的信息文本进行预处理;对获取到的信息文本的实体属性进行逐一标注;分析实体与属性之间的关系;计算每个实体所对应的不同属性的关联度,并建立实体属性库;在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。本发明专利技术通过计算机算法无需建立规则,通过对同一实体与属性赋予不同的权重,计算实体与属性之间的关联度,取关联度最高的实体属性输出。

An information technology data entity attribute extraction method based on deep learning

An information technology data entity attribute extraction method based on deep learning, including the following specific steps: building a crawler; and hosting the crawler on the database server; crawling the text to be extracted from the specified database according to the keyword request entered by the user; preprocessing the extracted information text; and performing the entity attribute of the acquired information text Label one by one; analyze the relationship between entities and attributes; calculate the association degree of different attributes corresponding to each entity, and establish the entity attribute library; select the entity attribute information with the highest association degree as the final result in the entity attribute library. The invention does not need to establish rules through computer algorithm, calculates the association degree between entities and attributes by giving different weights to the same entity and attribute, and outputs the entity attribute with the highest association degree.

【技术实现步骤摘要】
一种基于深度学习的信息技术数据实体属性抽取方法
本专利技术涉及实体数据抽取
,尤其涉及一种基于深度学习的信息技术数据实体属性抽取方法。
技术介绍
在信息研究领域,信息抽取技术是一项必不可少的关键技术。面对如此海量的信息空间,如何更快更准确地抽取出用户感兴趣的内容是一个迫切需要解决的问题,也是信息挖掘技术的一个重要研究方向。信息抽取不同于信息检索等信息处理技术,它需要对文本进行命名实体的识别,并抽取出实体之间的关系,而中文文本中词语的灵活多变、构词复杂且没有明显的标志,使得对中文命名实体的识别及关系的抽取就显得更加困难。目前,信息抽取的主要方法有是基于知识库算法,这种方法需要建立一些规则,虽然这种方法的准确率较高,但是这种规则的确定是比较困难的,对编写者有较高的要求,且移植性不高。为解决上述问题,本申请中提出一种基于深度学习的信息技术数据实体属性抽取方法。
技术实现思路
(一)专利技术目的为解决
技术介绍
中存在的信息抽取的主要方法有是基于知识库算法,这种方法需要建立一些规则,虽然这种方法的准确率较高,但是这种规则的确定是比较困难的,对编写者有较高的要求,且移植性不高的技术问题,本专利技术提出一种基于深度学习的信息技术数据实体属性抽取方法,通过计算机算法无需建立规则,通过对同一实体与属性赋予不同的权重,计算实体与属性之间的关联度,取关联度最高的实体属性输出。(二)技术方案为解决上述问题,本专利技术提供了一种基于深度学习的信息技术数据实体属性抽取方法,包括以下具体步骤;S1、构建爬虫程序;并将爬虫程序驻留在数据库服务器上;S2、根据用户输入的关键词请求,从指定的数据库中爬取待抽取文本;S3、对抽取的信息文本进行预处理;S4、对获取到的信息文本的实体属性进行逐一标注;S5、分析实体与属性之间的关系;S6、计算每个实体所对应的不同属性的关联度,并建立实体属性库;S7、在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。优选的,根据用户输入的关键词请求,发送至数据库服务器上的爬虫程序,爬虫程序对关键词进行提取分析,选择与关键词匹配的文本。优选的,对抽取的信息文本进行预处理包括去除所有的空格和ref标签中的内容。优选的,对抽取的信息文本进行预处理包括去除所有的无效图片。优选的,对抽取的信息文本进行预处理包括去除所有的重复数据。优选的,对抽取的信息文本进行预处理包括提取信息文本中的动词,并对动词进行标注。优选的,对信息中的动词采用向量的方式进行标注。优选的,对实体以及与实体所对应的属性分别赋予不同的权重,根据权重的不同计算同一个实体与不同属性之间的关联度。本专利技术的上述技术方案具有如下有益的技术效果:首先构建爬虫程序;并将爬虫程序驻留在数据库服务器上;用户输入关键词请求,并将请求信息发送至数据库服务器上的爬虫程序,爬虫程序对关键词进行提取分析,选择与关键词匹配的文本;之后对抽取的信息文本进行预处理,预处理过程包括去除所有的空格和ref标签中的内容、去除所有的无效图片、去除所有的重复数据和提取信息文本中的动词,并对动词进行标注;之后对获取到的信息文本的实体属性进行逐一标注,并对实体以及与实体所对应的属性分别赋予不同的权重,根据权重的不同计算同一个实体与不同属性之间的关联度;并建立实体属性库,更具实体属性关联度的高低确定优先级,选择关联度最高的实体属性信息作为最终结果抽取出来;在实际使用的过程中,用户可对抽取结果进行评分,通过用户使用频次的增加,累积不同的分值以及不同实体所对应的不同属性信息,深度学习并优化权重的赋值,实时调整通一实体与不同属性之间的关联度,并根据用户输入的关键词,抽取不同的实体属性。通过计算机算法无需建立规则,通过对同一实体与属性赋予不同的权重,计算实体与属性之间的关联度,取关联度最高的实体属性输出。附图说明图1为本专利技术提出的基于深度学习的信息技术数据实体属性抽取方法的结构示意图。图2为本专利技术提出的基于深度学习的信息技术数据实体属性抽取方法中预处理方法的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本专利技术进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本专利技术的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本专利技术的概念。如图1-2所示,本专利技术提出的一种基于深度学习的信息技术数据实体属性抽取方法,包括以下具体步骤;S1、构建爬虫程序;并将爬虫程序驻留在数据库服务器上;S2、根据用户输入的关键词请求,从指定的数据库中爬取待抽取文本;S3、对抽取的信息文本进行预处理;S4、对获取到的信息文本的实体属性进行逐一标注;S5、分析实体与属性之间的关系;S6、计算每个实体所对应的不同属性的关联度,并建立实体属性库;S7、在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。本专利技术中,首先构建爬虫程序;并将爬虫程序驻留在数据库服务器上;用户输入关键词请求,并将请求信息发送至数据库服务器上的爬虫程序,爬虫程序对关键词进行提取分析,选择与关键词匹配的文本;之后对抽取的信息文本进行预处理,预处理过程包括去除所有的空格和ref标签中的内容、去除所有的无效图片、去除所有的重复数据和提取信息文本中的动词,并对动词进行标注;之后对获取到的信息文本的实体属性进行逐一标注,并对实体以及与实体所对应的属性分别赋予不同的权重,根据权重的不同计算同一个实体与不同属性之间的关联度;并建立实体属性库,更具实体属性关联度的高低确定优先级,选择关联度最高的实体属性信息作为最终结果抽取出来;在实际使用的过程中,用户可对抽取结果进行评分,通过用户使用频次的增加,累积不同的分值以及不同实体所对应的不同属性信息,深度学习并优化权重的赋值,实时调整通一实体与不同属性之间的关联度,并根据用户输入的关键词,抽取不同的实体属性。在一个可选的实施例中,根据用户输入的关键词请求,发送至数据库服务器上的爬虫程序,爬虫程序对关键词进行提取分析,选择与关键词匹配的文本。在一个可选的实施例中,对抽取的信息文本进行预处理包括去除所有的空格和ref标签中的内容。在一个可选的实施例中,对抽取的信息文本进行预处理包括去除所有的无效图片。在一个可选的实施例中,对抽取的信息文本进行预处理包括去除所有的重复数据。在一个可选的实施例中,对抽取的信息文本进行预处理包括提取信息文本中的动词,并对动词进行标注。在一个可选的实施例中,对信息中的动词采用向量的方式进行标注。在一个可选的实施例中,对实体以及与实体所对应的属性分别赋予不同的权重,根据权重的不同计算同一个实体与不同属性之间的关联度。应当理解的是,本专利技术的上述具体实施方式仅仅用于示例性说明或解释本专利技术的原理,而不构成对本专利技术的限制。本文档来自技高网...

【技术保护点】
1.一种基于深度学习的信息技术数据实体属性抽取方法,其特征在于,包括以下具体步骤;/nS1、构建爬虫程序;并将爬虫程序驻留在数据库服务器上;/nS2、根据用户输入的关键词请求,从指定的数据库中爬取待抽取文本;/nS3、对抽取的信息文本进行预处理;/nS4、对获取到的信息文本的实体属性进行逐一标注;/nS5、分析实体与属性之间的关系;/nS6、计算每个实体所对应的不同属性的关联度,并建立实体属性库;/nS7、在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。/n

【技术特征摘要】
1.一种基于深度学习的信息技术数据实体属性抽取方法,其特征在于,包括以下具体步骤;
S1、构建爬虫程序;并将爬虫程序驻留在数据库服务器上;
S2、根据用户输入的关键词请求,从指定的数据库中爬取待抽取文本;
S3、对抽取的信息文本进行预处理;
S4、对获取到的信息文本的实体属性进行逐一标注;
S5、分析实体与属性之间的关系;
S6、计算每个实体所对应的不同属性的关联度,并建立实体属性库;
S7、在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。


2.根据权利要求1所述的基于深度学习的信息技术数据实体属性抽取方法,其特征在于,根据用户输入的关键词请求,发送至数据库服务器上的爬虫程序,爬虫程序对关键词进行提取分析,选择与关键词匹配的文本。


3.根据权利要求1所述的基于深度学习的信息技术数据实体属性抽取方法,其特征在于,对抽取的信息文本进行预处理包括去除所...

【专利技术属性】
技术研发人员:肖清林
申请(专利权)人:福建奇点时空数字科技有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1