【技术实现步骤摘要】
基于深度学习多头选择模型的表头列实体关系匹配方法
[0001]本专利技术涉及表头列实体
,具体为基于深度学习多头选择模型的表头列实体关系匹配方法。
技术介绍
[0002]表头列实体关系匹配技术是判定表格的两列实体的对应关系,该技术对表格信息挖掘具有重要作用,现有的技术方案是采用数据项碰撞进行判定,忽略了表头语义的信息,这种方式需要自己维护一个基准数据库,方可进行数据碰撞,方案启动成本比较大,以及没有使用表头语义进行辅助判定。因此我们对此做出改进,提出基于深度学习多头选择模型的表头列实体关系匹配方法。
技术实现思路
[0003]为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术基于深度学习多头选择模型的表头列实体关系匹配方法,包括几下几个步骤:步骤一:对表格的数据项定义数据实体属性类别,比如时间、姓名、公司名等,并构建正则识别方法;步骤二:构建表头的任意两列组合的人工特征,人工特征的构建方式可依据实际场景需要进行选择;步骤三:将表头字符序列、表头对应的数据属性序列经过各自的embedding ...
【技术保护点】
【技术特征摘要】
1.基于深度学习多头选择模型的表头列实体关系匹配方法,其特征在于,包括几下几个步骤:步骤一:对表格的数据项定义数据实体属性类别,比如时间、姓名、公司名等,并构建正则识别方法;步骤二:构建表头的任意两列组合的人工特征,人工特征的构建方式可依据实际场景需要进行选择;步骤三:将表头字符序列、表头对应的数据属性序列经过各自的embedding层之后,合并向量作为下一编码层的输入;步骤四:编码层采用bi
‑
lstm模型结构,输出为表头序列融合了上下文信息的各位置编码;步骤五:将上下文编码信息基于多头选择机制进行任意位置两两组合拼接,然后对拼接向量进行关系分类;步骤六:计算表头序列任意两两位置对每个关系类别的binary损失值,然后利用损失值进行反向传播更新模型参数;步骤七:将损失值收敛至最佳的模型保留,并作为用于预测的模型。2.根据权利要求1所述的基于深度学习多头选择模型的表头列实体关系匹配方法,其特征在于,所述步骤一表头为“电视剧集演员姓名、所属公司名 、公司电话、公司地址、拍摄时间、拍摄地址、工作邮箱、导演姓名、所属公司名、剧集长度和首映时间”构成的文字,表头列指其中单独每列的文字,例如“演员姓名”,“所属公司名”之类。3.根据权利要求1所述的基于深度学习多头选择模型的表头列实体关系匹配方法,其特征在于,所述步骤三中操作步骤为表头字符序列words,属性序列attrs,分别经过两个embedding矩阵的映射转换,假设位置i的字符经过转换后为w_{i},位置i的属性经过转换后为a_{i},那么位置i的合并embedding向量为e_{i}=[w_{i}:a_{i}]。4.根据权利要求1所述的基于深...
【专利技术属性】
技术研发人员:高永伟,李曙光,宋万军,姜广栋,杨万刚,李峰,蔡晨,陈玉冰,皮乾东,黄昌彬,杜俊杰,张鑫涛,
申请(专利权)人:南京烽火星空通信发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。