一种信息提取方法、装置及系统制造方法及图纸

技术编号：27615046 阅读：18 留言：0更新日期：2021-03-10 10:43

本发明专利技术公开了一种信息提取方法、装置及系统。所述方法包括：获取文件中的文本信息及文本信息中字符的位置信息；根据所述文本信息构建若干句向量；结合所述位置信息对所述句向量分类，获取所述句向量的类别；根据所述句向量的类别生成结构化表示的字符串信息。本发明专利技术针对具有特定格式的文件提高了具有特定格式文件的信息提取的准确性，提升了信息提取的准确率、鲁棒性和通用性。鲁棒性和通用性。鲁棒性和通用性。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息提取方法、装置及系统

[0001]本专利技术涉及计算机
，特别涉及一种信息提取方法、装置及系统。

技术介绍

[0002]信息提取是一种将自然语言表述的文本信息转换成键值对，进行数据的结构化表示，以定位自然语言文档中特定信息的技术。目前，信息提取普遍采用自动学习的方法，常用的提取模型包括：基于正则文法推导的模型、基于模板推导的模型、基于结构比较的模型、基于视觉特征的模型等等。然而现有技术中，利用上述模型的信息提取方法对于普通文件以及具有特定格式文件的处理过程均相同，这样导致信息提取的准确率难以提升。

技术实现思路

[0003]为了解决现有技术的问题，本专利技术实施例提供了一种信息提取方法、装置及系统。所述技术方案如下：
[0004]第一方面，提供了一种信息提取方法，所述方法包括：
[0005]获取文件中的文本信息及文本信息中字符的位置信息；
[0006]根据所述文本信息构建若干句向量；
[0007]结合所述位置信息对所述句向量分类，获取所述句向量的类别；
[0008]根据所述句向量的类别生成结构化表示的字符串信息。
[0009]进一步地，所述对所述句向量进行分类，获取所述句向量的类别，包括：
[0010]将所述句向量表征为节点，将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边，构建图网络；
[0011]利用图网络模型对所述图网络中的所述节点分类，获得所述句向量的类别。
[0012]进一步地，所述根据所述句向...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法，其特征在于，包括：获取文件中的文本信息及文本信息中字符的位置信息；根据所述文本信息构建若干句向量；结合所述位置信息对所述句向量分类，获取所述句向量的类别；根据所述句向量的类别生成结构化表示的字符串信息。2.如权利要求1所述的方法，其特征在于，所述对所述句向量进行分类，获取所述句向量的类别，包括：将所述句向量表征为节点，将与所述句向量对应的所述文本信息所包含字符的位置信息表征为边，构建图网络；利用图网络模型对所述图网络中的所述节点分类，获得所述句向量的类别。3.如权利要求1所述的方法，其特征在于，所述根据所述句向量的类别生成结构化表示的字符串信息，包括：根据所述位置信息对同一类别的所述句向量对应的文本信息进行拼接组合，生成结构化表示的所述字符串信息。4.如权利要求1～3中任一项所述的方法，其特征在于，所述根据文本信息构建若干句向量，包括：对所述文本信息进行分词处理，获得分词；将所述分词转换成词向量；根据所述词向量构建所述句向量。5.如权利要求4所述的方法，其特征在于，所述将所述分词转换成词向量，包括：利用词向量模型为所述分词匹配对应的所述词向量。6.如权利要求4所述的方法，其特征在于，所述根据所述...

【专利技术属性】
技术研发人员：王元，
申请(专利权)人：苏宁金融科技南京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人