一种基于深度学习的信息技术数据实体属性抽取方法技术

技术编号：22565185 阅读：14 留言：0更新日期：2019-11-16 12:03

一种基于深度学习的信息技术数据实体属性抽取方法，包括以下具体步骤；构建爬虫程序；并将爬虫程序驻留在数据库服务器上；根据用户输入的关键词请求，从指定的数据库中爬取待抽取文本；对抽取的信息文本进行预处理；对获取到的信息文本的实体属性进行逐一标注；分析实体与属性之间的关系；计算每个实体所对应的不同属性的关联度，并建立实体属性库；在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。本发明专利技术通过计算机算法无需建立规则，通过对同一实体与属性赋予不同的权重，计算实体与属性之间的关联度，取关联度最高的实体属性输出。

An information technology data entity attribute extraction method based on deep learning

An information technology data entity attribute extraction method based on deep learning, including the following specific steps: building a crawler; and hosting the crawler on the database server; crawling the text to be extracted from the specified database according to the keyword request entered by the user; preprocessing the extracted information text; and performing the entity attribute of the acquired information text Label one by one; analyze the relationship between entities and attributes; calculate the association degree of different attributes corresponding to each entity, and establish the entity attribute library; select the entity attribute information with the highest association degree as the final result in the entity attribute library. The invention does not need to establish rules through computer algorithm, calculates the association degree between entities and attributes by giving different weights to the same entity and attribute, and outputs the entity attribute with the highest association degree.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的信息技术数据实体属性抽取方法
本专利技术涉及实体数据抽取
，尤其涉及一种基于深度学习的信息技术数据实体属性抽取方法。
技术介绍
在信息研究领域，信息抽取技术是一项必不可少的关键技术。面对如此海量的信息空间，如何更快更准确地抽取出用户感兴趣的内容是一个迫切需要解决的问题，也是信息挖掘技术的一个重要研究方向。信息抽取不同于信息检索等信息处理技术，它需要对文本进行命名实体的识别，并抽取出实体之间的关系，而中文文本中词语的灵活多变、构词复杂且没有明显的标志，使得对中文命名实体的识别及关系的抽取就显得更加困难。目前，信息抽取的主要方法有是基于知识库算法，这种方法需要建立一些规则，虽然这种方法的准确率较高，但是这种规则的确定是比较困难的，对编写者有较高的要求，且移植性不高。为解决上述问题，本申请中提出一种基于深度学习的信息技术数据实体属性抽取方法。
技术实现思路
(一)专利技术目的为解决
技术介绍
中存在的信息抽取的主要方法有是基于知识库算法，这种方法需要建立一些规则，虽然这种方法的准确率较高，但是这种规则的确定是比较困难的，对编写者有较高的要求，且移植性不高的技术问题，本专利技术提出一种基于深度学习的信息技术数据实体属性抽取方法，通过计算机算法无需建立规则，通过对同一实体与属性赋予不同的权重，计算实体与属性之间的关联度，取关联度最高的实体属性输出。(二)技术方案为解决上述问题，本专利技术提供了一种基于深度学习的信息技术数据实体属性抽取方法，包括以下具体步骤...

【技术保护点】
1.一种基于深度学习的信息技术数据实体属性抽取方法，其特征在于，包括以下具体步骤；/nS1、构建爬虫程序；并将爬虫程序驻留在数据库服务器上；/nS2、根据用户输入的关键词请求，从指定的数据库中爬取待抽取文本；/nS3、对抽取的信息文本进行预处理；/nS4、对获取到的信息文本的实体属性进行逐一标注；/nS5、分析实体与属性之间的关系；/nS6、计算每个实体所对应的不同属性的关联度，并建立实体属性库；/nS7、在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。/n

【技术特征摘要】
1.一种基于深度学习的信息技术数据实体属性抽取方法，其特征在于，包括以下具体步骤；
S1、构建爬虫程序；并将爬虫程序驻留在数据库服务器上；
S2、根据用户输入的关键词请求，从指定的数据库中爬取待抽取文本；
S3、对抽取的信息文本进行预处理；
S4、对获取到的信息文本的实体属性进行逐一标注；
S5、分析实体与属性之间的关系；
S6、计算每个实体所对应的不同属性的关联度，并建立实体属性库；
S7、在实体属性库中选择关联度最高的实体属性信息作为最终结果抽取出来。

2.根据权利要求1所述的基于深度学习的信息技术数据实体属性抽取方法，其特征在于，根据用户输入的关键词请求，发送至数据库服务器上的爬虫程序，爬虫程序对关键词进行提取分析，选择与关键词匹配的文本。

3.根据权利要求1所述的基于深度学习的信息技术数据实体属性抽取方法，其特征在于，对抽取的信息文本进行预处理包括去除所...

【专利技术属性】
技术研发人员：肖清林，
申请(专利权)人：福建奇点时空数字科技有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人