快速判别和抽取关系型数据库实体及属性的方法及设备技术

技术编号:20221669 阅读:70 留言:0更新日期:2019-01-28 20:12
本发明专利技术提供一种快速判别和抽取关系型数据库实体及属性的方法,从关系型数据库中抽取表注释语句,判断词性,将注释含有名词的标注为静态表,注释为动词的标注为动态表,动态表在此方法中不作处理;将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;通过词性标注和建立错误词典方法判别实体表中的实体属性字段;本发明专利技术提供一种计算机设备,便于提高工作效率。

【技术实现步骤摘要】
快速判别和抽取关系型数据库实体及属性的方法及设备
本专利技术涉及一种快速判别和抽取关系型数据库实体及属性的方法及设备。
技术介绍
现有的大数据中构造人物画像时,需要关联很多关系型数据库中的实体库表,而关系型数据库存储库表的数量较多,在这种情况下,进行关联各个表的时候,就需要查询各个库表内字段名字,数据内容等的信息,这部分内容时需要人工操作,这就使得人工操作的工作量非常巨大,不利于工作效率的提高。
技术实现思路
本专利技术要解决的技术问题,在于提供一种快速判别和抽取关系型数据库实体及属性的方法及设备,便于提高工作效率。本专利技术之一是这样实现的:一种快速判别和抽取关系型数据库实体及属性的方法,包括:步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;步骤2、将每个静态表中字段名进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;步骤3、通过词性标注方法抽取实体表中的实体字段。进一步地,还包括步骤4、将抽取的实体字段通过人工进行检验,并建立错误词典。进一步地,所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注本文档来自技高网...

【技术保护点】
1.一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:包括:步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;步骤3、通过词性标注方法抽取实体表中的实体属性字段。

【技术特征摘要】
1.一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:包括:步骤1、从关系型数据库中抽取表注释语句,判断词性,将词性为名词的表标作为静态表;步骤2、将每个表的列名注释进行判断,若静态表中的字段名为名词数量超过限定个数,则将该静态表作为实体表;步骤3、通过词性标注方法抽取实体表中的实体属性字段。2.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:还包括步骤4、将抽取的实体属性字段通过人工进行检验,并建立错误词典。3.根据权利要求1所述的一种快速判别和抽取关系型数据库实体及属性的方法,其特征在于:所述步骤1进一步具体为:从关系型数据库中抽取表注释语句,之后使用条件随机场算法对注释语句进行词性标注,将词性标注为名词的表作为静态表。...

【专利技术属性】
技术研发人员:陈征宇林韶军林文国洪章阳毛礼标黄炳裕
申请(专利权)人:长威信息科技发展股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1