A method of attribute extraction of professional data entity based on attribute annotation includes the following steps: acquiring data and generating database; labeling entity attributes of data in database and classifying; editing data extraction instructions; acquiring data extraction instructions; parsing data extraction instructions to obtain data extraction conditions; determining target attribute identification according to the acquired extraction conditions; performing extraction tasks According to the target attribute identification, we can get the target document, judge whether the data in the target document meets the data extraction conditions, and generate the data extraction results. The invention extracts data based on attribute annotation, simplifies the extraction method, reduces the access pressure of database server in the extraction process, improves the extraction efficiency, saves time, conducts multi-dimensional statistics and display of extraction results, all-round character characterization and analysis, can intuitively and clearly understand the extraction results, and is convenient for users to conduct comprehensive data analysis.
【技术实现步骤摘要】
一种基于属性标注的专业数据实体属性抽取方法
本专利技术涉及数据抽取
,尤其涉及一种基于属性标注的专业数据实体属性抽取方法。
技术介绍
对大数据进行智能化管理和有效分析成为一个迫切需求,对大数据进行定量建模以及关联分析,并研究有效的分析挖掘方法,是有效分析大数据的关键,也是提高科学化水平的基础;数据的规模较大,现有的数据实体抽取方法不能基于属性标注来对数据进行抽取,难以快速的从其中抽取所需数据,抽取过程耗费的时间长,抽取效率低。
技术实现思路
(一)专利技术目的为解决
技术介绍
中存在的技术问题,本专利技术提出一种基于属性标注的专业数据实体属性抽取方法,基于属性标注来对数据进行抽取,简化了抽取方法,提高了抽取效率,节省了时间,并对抽取结果进行多维度统计和展现、全方位人物刻画和分析,可以直观清楚的了解抽取结果,便于使用者进行综合数据分析,而且优化了当前的数据抽取方案,能在大数据抽取过程中减少数据库服务器的访问压力,并且可灵活配置或扩展规则以适应不同业务系统、不同关系性数据的数据提取。(二)技 ...
【技术保护点】
1.一种基于属性标注的专业数据实体属性抽取方法,其特征在于,包括以下步骤:/nS1、获取数据并对数据进行存储,生成数据库;/nS2、对数据进行处理,标注数据库中数据的实体属性并分类;/nS3、编辑数据抽取指令;/nS4、获取数据抽取指令;/nS5、解析数据抽取指令,得到数据抽取条件;/nS6、根据获得的抽取条件确定目标属性标识;/nS7、执行抽取任务,根据目标属性标识得到目标文档;/nS8、判断目标文档中的数据是否符合数据抽取条件,剔除不符合抽取条件的数据,将符合抽取条件的数据并入数据存储库中;/nS9、生成数据抽取结果;/nS10、抽取完成,结束本次抽取任务。/n
【技术特征摘要】 【专利技术属性】
1.一种基于属性标注的专业数据实体属性抽取方法,其特征在于,包括以下步骤:
S1、获取数据并对数据进行存储,生成数据库;
S2、对数据进行处理,标注数据库中数据的实体属性并分类;
S3、编辑数据抽取指令;
S4、获取数据抽取指令;
S5、解析数据抽取指令,得到数据抽取条件;
S6、根据获得的抽取条件确定目标属性标识;
S7、执行抽取任务,根据目标属性标识得到目标文档;
S8、判断目标文档中的数据是否符合数据抽取条件,剔除不符合抽取条件的数据,将符合抽取条件的数据并入数据存储库中;
S9、生成数据抽取结果;
S10、抽取完成,结束本次抽取任务。
2.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,在S2中,实体属性包括工作单位属性、居住地址属性、户籍属性、名族属性、年龄属性、性别属性、学历属性、毕业院校属性、党龄属性、入党日期属性。
3.根据权利要求1所述的一种基于属性标注的专业数据实体属性抽取方法,其特征在于,数据获取方式为网上下载或数据导入。
技术研发人员:肖清林,
申请(专利权)人:福建奇点时空数字科技有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。