一种基于知识图谱的包装行业数据搜索方法及设备技术

技术编号:18763966 阅读:35 留言:0更新日期:2018-08-25 10:34
本发明专利技术提供了一种基于知识图谱的包装行业数据搜索方法及设备,本发明专利技术的包装行业垂直领域搜索引擎可以实现包装行业领域最佳的检索效率及效果,能够对自然语言查询进行深入的理解,并从语义层面解析用户查询意图,能够利用海量的结构化知识库,针对用户查询提供准确的答案,另外可以自由灵活的扩充同义词词库。

【技术实现步骤摘要】
一种基于知识图谱的包装行业数据搜索方法及设备
本专利技术涉及一种基于知识图谱的包装行业数据搜索方法及设备。
技术介绍
包装行业数据分散在多个系统中,并且不同来源的数据拥有不一样的结构,现有技术难以对这些信息进行聚合,存在对包装行业数据融合的需求。同时互联网上大部分数据均为非结构化数据,计算机无法理解。同时当存在新的业务认知时,传统的关系数据库构建的模式变迁困难,修改数据结构及业务逻辑很困难,会带来扩展性差、维护成本高等不良情况。当前通用搜索引擎已经发展得较为成熟,其功能已经能满足用户的基本搜索需求,但用户使用搜索引擎进行检索时,搜索任何关键词得到的都是海量的信息,采用通用搜索引擎对包装行业数据搜索,存在搜索结果信息量大、查询不准确、深度不够等问题。
技术实现思路
本专利技术的目的在于提供一种基于知识图谱的包装行业数据搜索方法及设备,能够解决采用通用搜索引擎对包装行业数据搜索,存在搜索结果信息量大、查询不准确、深度不够等问题。为解决上述问题,本专利技术提供一种基于知识图谱的包装行业数据搜索方法,包括:将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台,建立对应数据索引库,所述数据索引库是一套独立的数据结构,内容与包装行业元数据库中的数据对应一致,所述数据索引库采用ETL技术同步包装行业元数据库中的数据,并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中,其中,所述数据索引库构建在ElasticSearch集群基础上,采用分布式加热备方式进行部署,所述当数据加入到数据索引库的时候,数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引,并同时将数据同步到该节点对应的热备节点中;其中,所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括:将数据索引库中每个包装商品的数据结构定义成一个文档,文档由多个字段组成,根据字段的搜索、统计需求,为每一个字段选择不同的分词算法,其中,对于提供全文检索功能的字段,采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器进行分词;采用所选择的分词算法对文档的各个字段进行分词之后,文档即转变成词向量,然后对向量空间中的词进行语义处理,包括同义词扩充、上位下位词扩充;按照包装数据维度,对分词和语义处理后得到的词进行合并,得到词对应文档ID的倒排链表,将持久化之后的倒排链表写到数据索引库中,所述倒排链表包含:包装商品的数据结构、词的数量、词在文档中的位置信息、词在文档中的词频信息、词关联的文档数量和文档总数量;对数据索引库中的字段的权重进行按照加权规则进行调整,所述加权的规则包括:利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权;获取搜索词,对所述搜索词进行分词和语义处理,根据所述数据索引库中倒排链表和字段的权重,获取经过分词和语义处理后的搜索词在包装行业知识图谱对应的搜索结果位置;根据所述搜索结果位置,从所述包装行业知识图谱中获取经过分词和语义处理后的搜索词对应的搜索结果。根据本专利技术的另一面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台,建立对应数据索引库,所述数据索引库是一套独立的数据结构,内容与包装行业元数据库中的数据对应一致,所述数据索引库采用ETL技术同步包装行业元数据库中的数据,并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中,其中,所述数据索引库构建在ElasticSearch集群基础上,采用分布式加热备方式进行部署,所述当数据加入到数据索引库的时候,数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引,并同时将数据同步到该节点对应的热备节点中;其中,所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括:将数据索引库中每个包装商品的数据结构定义成一个文档,文档由多个字段组成,根据字段的搜索、统计需求,为每一个字段选择不同的分词算法,其中,对于提供全文检索功能的字段,采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器进行分词;采用所选择的分词算法对文档的各个字段进行分词之后,文档即转变成词向量,然后对向量空间中的词进行语义处理,包括同义词扩充、上位下位词扩充;按照包装数据维度,对分词和语义处理后得到的词进行合并,得到词对应文档ID的倒排链表,将持久化之后的倒排链表写到数据索引库中,所述倒排链表包含:包装商品的数据结构、词的数量、词在文档中的位置信息、词在文档中的词频信息、词关联的文档数量和文档总数量;对数据索引库中的字段的权重进行按照加权规则进行调整,所述加权的规则包括:利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权;获取搜索词,对所述搜索词进行分词和语义处理,根据所述数据索引库中倒排链表和字段的权重,获取经过分词和语义处理后的搜索词在包装行业知识图谱对应的搜索结果位置;根据所述搜索结果位置,从所述包装行业知识图谱中获取经过分词和语义处理后的搜索词对应的搜索结果。本专利技术还提供一种计算器设备,其中,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台,建立对应数据索引库,所述数据索引库是一套独立的数据结构,内容与包装行业元数据库中的数据对应一致,所述数据索引库采用ETL技术同步包装行业元数据库中的数据,并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中,其中,所述数据索引库构建在ElasticSearch集群基础上,采用分布式加热备方式进行部署,所述当数据加入到数据索引库的时候,数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引,并同时将数据同步到该节点对应的热备节点中;其中,所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括:将数据索引库中每个包装商品的数据结构定义成一个文档,文档由多个字段组成,根据字段的搜索、统计需求,为每一个字段选择不同的分词算法,其中,对于提供全文检索功能的字段,采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器进行分词;采用所选择的分词算法对文档的各个字段进行分词之后,文档即转变成词向量,然后对向量空间中的词进行语义处理,包括同义词扩充、上位下位词扩充;按照包装数据维度,对分词和语义处理后得到的词进行合并,得到词对应文档ID的倒排链表,将持久化之后的倒排链表写到数据索引库中,所述倒排链表包含:包装商品的数据结构、词的数量、词在文档中的位置信息、词在文档中的词频信息、词关联的文档数量和文档总数量;对数据索引库中的字段的权重进行按照加权规则进行调整,所述加权的规则包括:利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权;获取搜索词,对所述搜索词进行本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的包装行业数据搜索方法,其特征在于,包括:将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台,建立对应数据索引库,所述数据索引库是一套独立的数据结构,内容与包装行业元数据库中的数据对应一致,所述数据索引库采用ETL技术同步包装行业元数据库中的数据,并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中,其中,所述数据索引库构建在ElasticSearch集群基础上,采用分布式加热备方式进行部署,所述当数据加入到数据索引库的时候,数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引,并同时将数据同步到该节点对应的热备节点中;其中,所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括:将数据索引库中每个包装商品的数据结构定义成一个文档,文档由多个字段组成,根据字段的搜索、统计需求,为每一个字段选择不同的分词算法,其中,对于提供全文检索功能的字段,采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器进行分词;采用所选择的分词算法对文档的各个字段进行分词之后,文档即转变成词向量,然后对向量空间中的词进行语义处理,包括同义词扩充、上位下位词扩充;按照包装数据维度,对分词和语义处理后得到的词进行合并,得到词对应文档ID的倒排链表,将持久化之后的倒排链表写到数据索引库中,所述倒排链表包含:包装商品的数据结构、词的数量、词在文档中的位置信息、词在文档中的词频信息、词关联的文档数量和文档总数量;对数据索引库中的字段的权重进行按照加权规则进行调整,所述加权的规则包括:利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权;获取搜索词,对所述搜索词进行分词和语义处理,根据所述数据索引库中倒排链表和字段的权重,获取经过分词和语义处理后的搜索词在包装行业知识图谱对应的搜索结果位置;根据所述搜索结果位置,从所述包装行业知识图谱中获取经过分词和语义处理后的搜索词对应的搜索结果。...

【技术特征摘要】
1.一种基于知识图谱的包装行业数据搜索方法,其特征在于,包括:将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台,建立对应数据索引库,所述数据索引库是一套独立的数据结构,内容与包装行业元数据库中的数据对应一致,所述数据索引库采用ETL技术同步包装行业元数据库中的数据,并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中,其中,所述数据索引库构建在ElasticSearch集群基础上,采用分布式加热备方式进行部署,所述当数据加入到数据索引库的时候,数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引,并同时将数据同步到该节点对应的热备节点中;其中,所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括:将数据索引库中每个包装商品的数据结构定义成一个文档,文档由多个字段组成,根据字段的搜索、统计需求,为每一个字段选择不同的分词算法,其中,对于提供全文检索功能的字段,采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器进行分词;采用所选择的分词算法对文档的各个字段进行分词之后,文档即转变成词向量,然后对向量空间中的词进行语义处理,包括同义词扩充、上位下位词扩充;按照包装数据维度,对分词和语义处理后得到的词进行合并,得到词对应文档ID的倒排链表,将持久化之后的倒排链表写到数据索引库中,所述倒排链表包含:包装商品的数据结构、词的数量、词在文档中的位置信息、词在文档中的词频信息、词关联的文档数量和文档总数量;对数据索引库中的字段的权重进行按照加权规则进行调整,所述加权的规则包括:利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权;获取搜索词,对所述搜索词进行分词和语义处理,根据所述数据索引库中倒排链表和字段的权重,获取经过分词和语义处理后的搜索词在包装行业知识图谱对应的搜索结果位置;根据所述搜索结果位置,从所述包装行业知识图谱中获取经过分词和语义处理后的搜索词对应的搜索结果。2.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台,建立对应数据索引库,所述数据索引库是一套独立的数据结构,内容与包装行业元数据库中的数据对应一致,所述数据索引库采用ETL技术同步包装行业元数据库中的数据,并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中,其中,所述数据索引库构建在ElasticSearch集群基础上,采用分布式加热备方式进行部署,所述当数据加入到数据索引库的时候,数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引,并同时将数据同步到该节点对应的热备节点中;其中,所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括:将数据索引库中每个包装商品的数据结构定义成一个文档,文档由多个字段组成,根据字段的搜索、统计需求,为每一个字段选择不同的分词算法,其中,对于提供全文检索功能的字段,采用基于所述包装行业知识图谱改造后的IKAn...

【专利技术属性】
技术研发人员:李长云吴岳忠丁军朱俊杰
申请(专利权)人:湖南工业大学上海海乂知信息科技有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1