The invention provides an international trade document processing method, system and a server. The methods include: classification of international trade documents and documents of documents, identification of image international trade documents and the unified conversion of recognized international trade documents and documents to XML documents. Classify the XML files according to the file features attached to the XML file; analyze and process the XML files to determine the structured and unstructured parts of the XML file; determine the boundary of the contents of the unstructured parts, determine the title area and the content area; and the structured part of the wired frame, based on the wire frame, wireless frame. Then the adaptive projection is carried out; the maximum entropy model is used to identify the named entity, the end of the rule judgment sentence and the relational data based on the ontology form are extracted, and the international trade information elements are stored in the form of the structure. Therefore, the invention can complete the structured storage of international trade documents. One
【技术实现步骤摘要】
一种国际贸易文件处理方法、系统以及一种服务器
本专利技术涉及文件处理
,特别是国际贸易文件
,具体为一种国际贸易文件处理方法、系统以及一种服务器。
技术介绍
国际贸易中会有大量的贸易文件产生、传递。贸易文件例如:发票、合同、箱单、提单等不仅用于贸易双方的商业约定还用于物流过程中的整个环境,同时进出口口岸的报关报检、银行信用证申请、保险购买、外汇购汇都需要这些贸易文件;这些贸易文件的原件有签字、盖章拥有法律效应,所以在贸易文件流转过程中多由人工处理原件或复印件。国际贸易涉及货权转移、货款结算、结汇收汇、关税退税、各国海关和商检监管,虽然目前提倡无纸化、电子化但是在贸易、物流、金融等环节流转过程中仍旧使用具有法律效应的原始单证或原始单证扫描件,依旧依靠人工操作和录入。目前贸易文件在进出口过程中进行报关报检、物流流转等诸多环节中,贸易信息的传递有两种思路:1、依靠email传递图片格式扫描件、PDF及WORD、EXCEL文件或通过快递递送贸易文件原件,再由外贸服务商进行制单与录入,目前人工的效率为20-30单/天。2、依靠ERP接口,一些拥有技术能力的货主企业开放ERP接口给外贸服务商,用来传递一部分订单数据。但外贸服务商会有多家而且会更换,而进出口的产品也会不断变化、各国的海关政策也在不断调整,所以基于生产数据而非正式贸易文件的数据不但容易出错,而且数据分发、数据对接存在隐患,况且只是处理了一部分单证,仍旧需要人工处理。当前,贸易单证文件的录入比较成熟,各大外贸服务企业都有相应的软件;但由于贸易单证是企业之间签订没有固定格式,而且不同地域不同国家的 ...
【技术保护点】
1.一种国际贸易文件处理方法,其特征在于,所述国际贸易文件处理方法包括:
【技术特征摘要】
1.一种国际贸易文件处理方法,其特征在于,所述国际贸易文件处理方法包括:对图像国际贸易文件和文档国际贸易文件进行分类;识别所述图像国际贸易文件并将识别后的所述图像国际贸易文件和所述文档国际贸易文件统一转换为XML文件;根据所述XML文件附带的文件特征对所述XML文件进行分类;对所述XML文件进行分析处理确定所述XML文件中结构化部分和非结构化部分;对所述非结构化部分中的内容进行边界判别,确定标题区域和内容区域;对所述结构化部分有线框则依据线框,无线框则进行自适应投影;利用最大熵模型进行命名实体识别、根据规则判断句尾和基于本体表格的关系数据抽取,并将国际贸易信息元素以结构体的形式存储,完成国际贸易文件的结构化存储。2.根据权利要求1所述的国际贸易文件处理方法,其特征在于,所述XML文件附带的文件特征包括单词、线框、印签标识的坐标。3.根据权利要求1所述的国际贸易文件处理方法,其特征在于,采用随机森林模型对所述XML文件进行分类。4.根据权利要求1所述的国际贸易文件处理方法,其特征在于,将所述XML文件载入预设的国际贸易知识库,在所述国际贸易知识库中对所述XML文件进行分析处理;其中,根据所述国际贸易知识库中的概念确定所述XML文件中非结构化部分,根据所述XML文件的表头特征、表底特征来确定所述XML文件中的结构化部分。5.根据权利要求1所述的国际贸易文件处理方法,其特征在于,对所述结构化部分进行处理还包括:当所述XML文件为单页时,根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取;当所述XML文件为多页时,根据相似度匹配判别结构化部分并对判别的结构化部分进行合并后根据所述国际贸易知识库中的单元格标题概念和表格表头概念对所述XML文件中的锚点进行信息元素提取。6.一种国际贸易文件处理系统,其特征在于,所述国际贸易文件处理系统包括:国际贸易文件文件分类模块,用于对图像国际贸易文件和文档国际贸易文件进行分类;识别转换模块,用于识别所述图像国际贸易文件并将识别...
【专利技术属性】
技术研发人员:俞洲,吴思琪,
申请(专利权)人:信号旗智能科技上海有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。