The invention provides a method and system for establishing structured data of commodity information, which relates to the technical field of semi-structured entity extraction in this paper. The method includes: obtaining semi-structured text data of commodities; segmenting the semi-structured text data based on industry lexicon, and extracting the entity information of the commodities; constructing structured data of commodity information according to the entity information of the commodities. The invention extracts commodity entity information from semi-structured text data of commodities, thus completes the establishment of structured data of commodities, and improves the efficiency of commodity supervision in cross-border e-commerce supervision field.
【技术实现步骤摘要】
商品信息结构化数据建立方法及系统
本专利技术涉及半结构化本文实体提取
,尤其是涉及一种商品信息结构化数据建立方法及系统。
技术介绍
在跨境电商监管领域,人们对商品的描述、填写往往是不规范的,作为政府监管部门,难以将这些描述记录归类整理并加以利用。所以需要使用文本实体提取技术对现有的不规范的商品描述记录进行实体提取,从而实现对商品信息的结构化构建并加以利用。现有的半结构化文本实体提取技术普遍存在准确率低,难以实用的问题。无法为跨境电商监管领域的商品信息结构化整理提供有效的解决方案。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种商品信息结构化数据建立方法及系统,从商品的半结构化文本数据中分词提取商品实体信息,从而完成商品的结构化数据的建立,提高了跨境电商监管领域商品监管效率。第一方面,本专利技术实施例提供了一种商品信息结构化数据建立方法,包括:获取商品的半结构化文本数据;基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;根据所述商品的实体信息构建商品信息结构化数据。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述半结构化文本数据包括跨境电商监管系统中用户填报的商品信息数据。结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,所述基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息,具体包括:通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库中;根据所述行业词库中的关键词,对所述商品信息的半结构化文本数据分词提取与所述关键词相对 ...
【技术保护点】
1.一种商品信息结构化数据建立方法,其特征在于,包括:获取商品的半结构化文本数据;基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;根据所述商品的实体信息构建商品信息结构化数据。
【技术特征摘要】
1.一种商品信息结构化数据建立方法,其特征在于,包括:获取商品的半结构化文本数据;基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息;根据所述商品的实体信息构建商品信息结构化数据。2.根据权利要求1所述的方法,其特征在于,所述半结构化文本数据包括跨境电商监管系统中用户填报的商品信息数据。3.根据权利要求1所述的方法,其特征在于,所述基于行业词库对所述半结构化文本数据进行分词,并提取所述商品的实体信息,具体包括:通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库中;根据所述行业词库中的关键词,对所述商品信息的半结构化文本数据分词提取与所述关键词相对应的商品的实体信息。4.根据权利要求3所述的方法,其特征在于,在所述通过智能推荐算法从所述商品信息的半结构化文本数据提取关键词,并将所述关键词添加到行业词库中之后,还包括:基于人工标注数据将所述智能推荐算法遗漏的关键词添加到行业词库。5.一种商品信息结构化数据建立系统,其特征在于,包括:获取模块,用于获取商品的半结构化文本数据;提取模块,用于基于行业词库对所述半...
【专利技术属性】
技术研发人员:毛云青,林加旺,
申请(专利权)人:城云科技中国有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。