一种国际贸易文件处理方法、系统以及一种服务器技术方案

技术编号:18237738 阅读:21 留言:0更新日期:2018-06-17 00:57
本发明专利技术提供一种国际贸易文件处理方法、系统以及一种服务器,所述方法包括:对图像国际贸易文件和文档国际贸易文件进行分类;识别图像国际贸易文件并将识别后的图像国际贸易文件和文档国际贸易文件统一转换为XML文件;根据XML文件附带的文件特征对XML文件进行分类;对XML文件进行分析处理确定XML文件中结构化部分和非结构化部分;对非结构化部分中的内容进行边界判别,确定标题区域和内容区域;对结构化部分有线框则依据线框,无线框则进行自适应投影;利用最大熵模型进行命名实体识别、根据规则判断句尾和基于本体表格的关系数据抽取,并将国际贸易信息元素以结构体的形式存储。所以本发明专利技术可完成国际贸易文件的结构化存储。 1

An international trade document processing method, system and a server

The invention provides an international trade document processing method, system and a server. The methods include: classification of international trade documents and documents of documents, identification of image international trade documents and the unified conversion of recognized international trade documents and documents to XML documents. Classify the XML files according to the file features attached to the XML file; analyze and process the XML files to determine the structured and unstructured parts of the XML file; determine the boundary of the contents of the unstructured parts, determine the title area and the content area; and the structured part of the wired frame, based on the wire frame, wireless frame. Then the adaptive projection is carried out; the maximum entropy model is used to identify the named entity, the end of the rule judgment sentence and the relational data based on the ontology form are extracted, and the international trade information elements are stored in the form of the structure. Therefore, the invention can complete the structured storage of international trade documents. One

【技术实现步骤摘要】
一种国际贸易文件处理方法、系统以及一种服务器
本专利技术涉及文件处理
,特别是国际贸易文件
,具体为一种国际贸易文件处理方法、系统以及一种服务器。
技术介绍
国际贸易中会有大量的贸易文件产生、传递。贸易文件例如:发票、合同、箱单、提单等不仅用于贸易双方的商业约定还用于物流过程中的整个环境,同时进出口口岸的报关报检、银行信用证申请、保险购买、外汇购汇都需要这些贸易文件;这些贸易文件的原件有签字、盖章拥有法律效应,所以在贸易文件流转过程中多由人工处理原件或复印件。国际贸易涉及货权转移、货款结算、结汇收汇、关税退税、各国海关和商检监管,虽然目前提倡无纸化、电子化但是在贸易、物流、金融等环节流转过程中仍旧使用具有法律效应的原始单证或原始单证扫描件,依旧依靠人工操作和录入。目前贸易文件在进出口过程中进行报关报检、物流流转等诸多环节中,贸易信息的传递有两种思路:1、依靠email传递图片格式扫描件、PDF及WORD、EXCEL文件或通过快递递送贸易文件原件,再由外贸服务商进行制单与录入,目前人工的效率为20-30单/天。2、依靠ERP接口,一些拥有技术能力的货主企业开放ERP接口给外贸服务商,用来传递一部分订单数据。但外贸服务商会有多家而且会更换,而进出口的产品也会不断变化、各国的海关政策也在不断调整,所以基于生产数据而非正式贸易文件的数据不但容易出错,而且数据分发、数据对接存在隐患,况且只是处理了一部分单证,仍旧需要人工处理。当前,贸易单证文件的录入比较成熟,各大外贸服务企业都有相应的软件;但由于贸易单证是企业之间签订没有固定格式,而且不同地域不同国家的书写习惯、用词都存在差异。海量的国际贸易文件的结构化工作存在处理量大、精度要求高的特点,国内相关研究开展较为迟滞,因而目前继续一种处理海量国际贸易文件的解决措施。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种国际贸易文件处理方法、系统以及一种服务器,用于解决现有技术中无法有效处理海量国际贸易文件的问题。为实现上述目的及其他相关目的,本专利技术的实施例提供一种国际贸易文件处理方法,所述国际贸易文件处理方法包括:对图像国际贸易文件和文档国际贸易文件进行分类;识别所述图像国际贸易文件并将识别后的所述图像国际贸易文件和所述文档国际贸易文件统一转换为XML文件;根据所述XML文件附带的文件特征对所述XML文件进行分类;对所述XML文件进行分析处理确定所述XML文件中结构化部分和非结构化部分;对所述非结构化部分中的内容进行边界判别,确定标题区域和内容区域;对所述结构化部分有线框则依据线框,无线框则进行自适应投影;利用最大熵模型进行命名实体识别、根据规则判断句尾和基于本体表格的关系数据抽取,并将国际贸易信息元素以结构体的形式存储,完成国际贸易文件的结构化存储。于本专利技术的一实施例中,所述XML文件附带的文件特征包括单词、线框、印签标识的坐标。于本专利技术的一实施例中,采用随机森林模型对所述XML文件进行分类。于本专利技术的一实施例中,将所述XML文件载入预设的国际贸易知识库,在所述国际贸易知识库中对所述XML文件进行分析处理;其中,根据所述国际贸易知识库中的概念确定所述XML文件中非结构化部分,根据所述XML文件的表头特征、表底特征来确定所述XML文件中的结构化部分。于本专利技术的一实施例中,对所述结构化部分进行处理还包括:当所述XML文件为单页时,根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取;当所述XML文件为多页时,根据相似度匹配判别结构化部分并对判别的结构化部分进行合并后根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取。本专利技术的实施例还提供一种国际贸易文件处理系统,所述国际贸易文件处理系统包括:国际贸易文件文件分类模块,用于对图像国际贸易文件和文档国际贸易文件进行分类;识别转换模块,用于识别所述图像国际贸易文件并将识别后的所述图像国际贸易文件和所述文档国际贸易文件统一转换为XML文件;XML文件分类模块,用于根据所述XML文件附带的文件特征对所述XML文件进行分类;结构化确定模块,用于对所述XML文件进行分析处理确定所述XML文件中结构化部分和非结构化部分;非结构化处理模块,用于对所述非结构化部分中的内容进行边界判别,确定标题区域和内容区域;结构化处理模块,用于对所述结构化部分有线框则依据线框,无线框则进行自适应投影;数据处理存储模块,用于利用最大熵模型进行命名实体识别、根据规则判断句尾和基于本体表格的关系数据抽取,并将国际贸易信息元素以结构体的形式存储,完成国际贸易文件的结构化存储。于本专利技术的一实施例中,所述XML文件附带的文件特征包括单词、线框、印签标识的坐标。于本专利技术的一实施例中,采用随机森林模型对所述XML文件进行分类。于本专利技术的一实施例中,所述国际贸易文件处理系统还包括载入模块,用于将所述XML文件载入预设的国际贸易知识库,在所述国际贸易知识库中对所述XML文件进行分析处理;其中,所述非结构化处理模块根据所述国际贸易知识库中的概念确定所述XML文件中非结构化部分,所述结构化处理模块根据所述XML文件的表头特征、表底特征来确定所述XML文件中的结构化部分。于本专利技术的一实施例中,所述结构化处理模块还用于处理:当所述XML文件为单页时,根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取;当所述XML文件为多页时,根据相似度匹配判别结构化部分并对判别的结构化部分进行合并后根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取。本专利技术的实施例还提供一种服务器,所述服务器包括处理器和存储器,所述存储器存储有程序指令,其特征在于,所述处理器运行程序指令实现如上所述的方法中的步骤。如上所述,本专利技术的一种国际贸易文件处理方法、系统以及一种服务器,具有以下有益效果:本专利技术通过将各类国际贸易文件统一转换为XML文件,并对所述XML文件进行分析处理确定所述XML文件中结构化部分和非结构化部分,用最大熵模型进行命名实体识别、根据规则判断句尾和基于本体表格的关系数据抽取,并将国际贸易信息元素以结构体的形式存储,完成国际贸易文件的结构化存储,所以本专利技术能有效的从图像及电子文件中抽取国际贸易信息,形成贸易信息的结构化数据,有效处理海量国际贸易文件,从而加快报关、报检的制单录入速度,降低企业的贸易成本,提高国际贸易文件的处理准确率。附图说明图1显示为本专利技术的一种国际贸易文件处理方法的流程示意图。图2显示为本专利技术的一种国际贸易文件处理方法中文本分类的示意图。图3显示为本专利技术的一种国际贸易文件处理方法中文本分类的实例图。图4显示为本专利技术的一种国际贸易文件处理方法中数据处理和存储示意图。图5显示为本专利技术的一种国际贸易文件处理方法中数据处理和存储的实图。图6显示为本专利技术的一种国际贸易文件处理系统的原理示意图。元件标号说明具体实施方式以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效。请参阅图1至图6。须知,本说明书所附图式所绘示的结构、比本文档来自技高网
...
一种国际贸易文件处理方法、系统以及一种服务器

【技术保护点】
1.一种国际贸易文件处理方法,其特征在于,所述国际贸易文件处理方法包括:

【技术特征摘要】
1.一种国际贸易文件处理方法,其特征在于,所述国际贸易文件处理方法包括:对图像国际贸易文件和文档国际贸易文件进行分类;识别所述图像国际贸易文件并将识别后的所述图像国际贸易文件和所述文档国际贸易文件统一转换为XML文件;根据所述XML文件附带的文件特征对所述XML文件进行分类;对所述XML文件进行分析处理确定所述XML文件中结构化部分和非结构化部分;对所述非结构化部分中的内容进行边界判别,确定标题区域和内容区域;对所述结构化部分有线框则依据线框,无线框则进行自适应投影;利用最大熵模型进行命名实体识别、根据规则判断句尾和基于本体表格的关系数据抽取,并将国际贸易信息元素以结构体的形式存储,完成国际贸易文件的结构化存储。2.根据权利要求1所述的国际贸易文件处理方法,其特征在于,所述XML文件附带的文件特征包括单词、线框、印签标识的坐标。3.根据权利要求1所述的国际贸易文件处理方法,其特征在于,采用随机森林模型对所述XML文件进行分类。4.根据权利要求1所述的国际贸易文件处理方法,其特征在于,将所述XML文件载入预设的国际贸易知识库,在所述国际贸易知识库中对所述XML文件进行分析处理;其中,根据所述国际贸易知识库中的概念确定所述XML文件中非结构化部分,根据所述XML文件的表头特征、表底特征来确定所述XML文件中的结构化部分。5.根据权利要求1所述的国际贸易文件处理方法,其特征在于,对所述结构化部分进行处理还包括:当所述XML文件为单页时,根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取;当所述XML文件为多页时,根据相似度匹配判别结构化部分并对判别的结构化部分进行合并后根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取。6.一种国际贸易文件处理系统,其特征在于,所述国际贸易文件处理系统包括:国际贸易文件文件分类模块,用于对图像国际贸易文件和文档国际贸易文件进行分类;识别转换模块,用于识别所述图像国际贸易文件并将识别...

【专利技术属性】
技术研发人员:俞洲吴思琪
申请(专利权)人:信号旗智能科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1