商品信息结构化数据建立方法及系统技术方案

技术编号:20916652 阅读:27 留言:0更新日期:2019-04-20 09:43
本发明专利技术提供了一种商品信息结构化数据建立方法及系统,涉及半结构化本文实体提取技术领域。所述方法包括:获取商品的半结构化文本数据;基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;根据所述商品的实体信息构建商品信息结构化数据。本发明专利技术从商品的半结构化文本数据中分词提取商品实体信息,从而完成商品的结构化数据的建立,提高了跨境电商监管领域商品监管效率。

Method and System for Establishing Structured Data of Commodity Information

The invention provides a method and system for establishing structured data of commodity information, which relates to the technical field of semi-structured entity extraction in this paper. The method includes: obtaining semi-structured text data of commodities; segmenting the semi-structured text data based on industry lexicon, and extracting the entity information of the commodities; constructing structured data of commodity information according to the entity information of the commodities. The invention extracts commodity entity information from semi-structured text data of commodities, thus completes the establishment of structured data of commodities, and improves the efficiency of commodity supervision in cross-border e-commerce supervision field.

【技术实现步骤摘要】
商品信息结构化数据建立方法及系统
本专利技术涉及半结构化本文实体提取
,尤其是涉及一种商品信息结构化数据建立方法及系统。
技术介绍
在跨境电商监管领域,人们对商品的描述、填写往往是不规范的,作为政府监管部门,难以将这些描述记录归类整理并加以利用。所以需要使用文本实体提取技术对现有的不规范的商品描述记录进行实体提取,从而实现对商品信息的结构化构建并加以利用。现有的半结构化文本实体提取技术普遍存在准确率低,难以实用的问题。无法为跨境电商监管领域的商品信息结构化整理提供有效的解决方案。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种商品信息结构化数据建立方法及系统,从商品的半结构化文本数据中分词提取商品实体信息,从而完成商品的结构化数据的建立,提高了跨境电商监管领域商品监管效率。第一方面,本专利技术实施例提供了一种商品信息结构化数据建立方法,包括:获取商品的半结构化文本数据;基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;根据所述商品的实体信息构建商品信息结构化数据。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述半结构化文本数据包括跨境电商监管系统中用户填报的商品信息数据。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息,具体包括:通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库中;根据所述行业词库中的关键词,对所述商品信息的半结构化文本数据分词提取与所述关键词相对应的商品的实体信息。结合第一方面的第二种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,在所述通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库中之后,还包括:基于人工标注数据将所述智能推荐算法遗漏的关键词添加到行业词库。第二方面,本专利技术实施例还提供了一种商品信息结构化数据建立系统,包括:获取模块,用于获取商品的半结构化文本数据;提取模块,用于基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;构建模块,用于根据所述商品的实体信息构建商品信息结构化数据。结合第二方面,本专利技术实施例提供了第二方面的第一种可能的实施方式,其中,所述半结构化文本数据包括跨境电商监管系统中用户上报的商品信息数据。结合第二方面,本专利技术实施例提供了第二方面的第二种可能的实施方式,其中,所述提取模块,包括:第一添加单元,用于通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库;提取单元,用于根据所述行业词库中的关键词,对所述商品信息的半结构化文本数据分词提取与所述关键词相对应的商品的实体信息。结合第二方面的第二种可能的实施方式,本专利技术实施例提供了第二方面的第三种可能的实施方式,其中,所述提取模块,还包括:第二添加单元,用于基于人工标注数据将所述智能推荐算法遗漏的关键词添加到行业词库中。第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如第一方面所述的方法的步骤。第四方面,本专利技术实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,其中,所述程序代码使所述处理器执行如第一方面所述的方法。本专利技术实施例带来了以下有益效果:本专利技术提供了一种商品信息结构化数据建立方法及系统。在该方法中,首先获取商品的半结构化文本数据;再基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;最后根据所述商品的实体信息构建商品信息结构化数据。该方法从商品的半结构化文本数据中分词提取商品实体信息,从而完成商品的结构化数据的建立,提高了跨境电商监管领域商品监管效率。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种商品信息结构化数据建立方法流程图;图2为本专利技术实施例提供的一种对半结构化文本数据进行分词提取商品实体信息的方法流程图;图3为本专利技术实施例提供的一种商品信息结构化数据建立系统结构示意图;图4为本专利技术实施例提供的电子设备结构图。图标:31-获取模块;32-提取模块;321-第一添加单元;322-第二添加单元;323-提取单元;33-构建模块;4-电子设备;41-处理器;42-存储器;43-通信接口;44-总线。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前,现有的半结构化文本实体提取技术普遍存在准确率低,难以实用的问题。无法为跨境电商监管领域的商品信息结构化整理提供有效的解决方案。基于此,本专利技术实施例提供的一种商品信息结构化数据建立方法及系统,可以应用于商品信息的结构化数据的建立。为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种商品信息结构化数据建立方法进行详细介绍。实施例一:本专利技术提供了一种商品信息结构化数据建立方法,如图1所示,该方法包括以下步骤:S101:获取商品的半结构化文本数据。首先获取商品信息的半结构化文本数据,该半结构化文本数据可以是由用户在跨境电商监管系统中填报的一段对某个商品信息的描述文本。S102:基于行业词库对半结构化文本数据进行分词,并提取商品的实体信息。如图2所示,作为一个优选方案,上述步骤S102,具体包括以下步骤:S1021:通过智能推荐算法从商品信息的半结构化文本数据提取关键词,并将关键词添加到行业词库中。通过智能推荐算法从商品信息的半结构化文本数据中提取关键词,将提取到的关键词添加到已有的行业词库中。该关键词与后续建立商品信息的结构化数据相关,关键词越多,商品信息的结构化数据统计越详细。S1022:基于人工标注数据将智能推荐算法遗漏的关键词添加到行业词库。通过人工标注关键词,将智能推荐算法没有识别到的关键词添加到行业词库中,使行业词库更加完善。S1023:根据行业词库中的关键词,对商品信息的半结构化文本数据分词提取与关键词相对应的商品的实体信息。根据行业词库中的关键词,对商品的半结构化文本数据进行分词,从而提取出与关键词相对应的商品的实体信息。例如,根据关键词“产地”,提取出商品的生产地的信息,根据关键词“成分”提取出商品的具体组成成分。S103:根据商品本文档来自技高网...

【技术保护点】
1.一种商品信息结构化数据建立方法,其特征在于,包括:获取商品的半结构化文本数据;基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;根据所述商品的实体信息构建商品信息结构化数据。

【技术特征摘要】
1.一种商品信息结构化数据建立方法,其特征在于,包括:获取商品的半结构化文本数据;基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;根据所述商品的实体信息构建商品信息结构化数据。2.根据权利要求1所述的方法,其特征在于,所述半结构化文本数据包括跨境电商监管系统中用户填报的商品信息数据。3.根据权利要求1所述的方法,其特征在于,所述基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息,具体包括:通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库中;根据所述行业词库中的关键词,对所述商品信息的半结构化文本数据分词提取与所述关键词相对应的商品的实体信息。4.根据权利要求3所述的方法,其特征在于,在所述通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库中之后,还包括:基于人工标注数据将所述智能推荐算法遗漏的关键词添加到行业词库。5.一种商品信息结构化数据建立系统,其特征在于,包括:获取模块,用于获取商品的半结构化文本数据;提取模块,用于基于行业词库对所述半...

【专利技术属性】
技术研发人员:毛云青林加旺
申请(专利权)人:城云科技中国有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1