【技术实现步骤摘要】
一种结构化信息检索方法和系统
本申请涉及服务器集群的
,特别是涉及一种结构化信息检索方法和系统,以及,一种建立结构化信息的索引的方法和系统。
技术介绍
电子商务(ElectronicCommerce,EC)是指在全球各地广泛的商业贸易活动中,在因特网开放的网络环境下,基于网络通讯技术,买卖双方可不谋面地进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付,以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。电子商务涵盖的范围很广,一般可分为企业对企业(Business-to-Business,B2B)、企业对消费者(Business-to-Customer,B2C)或消费者对消费者(Customer-to-Customer,C2C)等模式。近几年来,国内电子商务迅速发展,各种B2B、C2C、B2C模式的电子商务平台(俗称购物网站),如淘宝网、当当网、卓越亚马逊、拍拍网、京东商城等,已被用户认可和接受。卖家在电子商务平台发布自己的产品,产生产品集合,所述产品具有一定的结构化信息;买家使用自定义的查询词在电子商务 ...
【技术保护点】
一种结构化信息检索方法,其特征在于,包括:预置结构化信息的索引,所述结构化信息包括多个域的信息,所述索引包括各个域的倒排索引,以及,结构化信息的序列化索引;接收用户提交的结构化信息查询请求,所述请求中包括查询关键词;对所述查询关键词进行预处理;将预处理后的查询关键词在所述各个域的倒排索引中进行匹配,获得满足预设匹配规则的候选结构化信息;提取所述候选结构化信息对应的结构化信息的序列化索引,并按照预设的计分规则根据所述结构化信息的序列化索引计算所述候选结构化信息的分值;根据所述候选结构化信息的分值选取作为查询结果的目标结构化信息。
【技术特征摘要】
1.一种结构化信息检索方法,其特征在于,包括:预置结构化信息的索引,所述结构化信息包括多个域的信息,所述索引包括各个域的倒排索引,以及,结构化信息的序列化索引;接收用户提交的结构化信息查询请求,所述请求中包括查询关键词;对所述查询关键词进行预处理;将预处理后的查询关键词在所述各个域的倒排索引中进行匹配,获得满足预设匹配规则的候选结构化信息;提取所述候选结构化信息对应的结构化信息的序列化索引,并按照预设的计分规则根据所述结构化信息的序列化索引计算所述候选结构化信息的分值;根据所述候选结构化信息的分值选取作为查询结果的目标结构化信息;其中,所述预置结构化信息的索引的步骤,进一步包括:获取结构化信息,生成结构化信息库;对所述结构化信息库中结构化信息中各个域的信息进行预处理;针对经预处理后的各个域的信息建立各个域的倒排索引;以及,针对经预处理后各个域的信息建立结构化信息的序列化索引,包括:将预处理后的、不需要统计的对应域的信息进行序列化,以及,将经过统计运算之后形成的特征值也序列化,其中,不需要统计的对应域的信息包括各个域中的单词以及数字信息;需要统计运算的信息包括预处理后各个域的信息。2.根据权利要求1所述的方法,其特征在于,所述结构化信息的序列化索引包括第一结构化信息序列化索引,以及,第二结构化信息序列化索引;所述针对预处理后各个域的信息建立结构化信息的序列化索引的子步骤,进一步包括:将预处理后各个域中的单词采用哈希函数转换为单词ID;将预处理后各个域中的数字信息,以及,所述单词ID进行序列化,保存为第一结构化信息序列化索引;以及,按照预置规则根据所述预处理后各个域的信息,计算对应结构化信息的特征值;将所述特征值保存为第二结构化信息序列化索引。3.根据权利要求2所述的方法,其特征在于,所述结构化信息为产品信息,所述多个域的信息包括:产品主题信息、产品关键词信息、产品属性信息、产品的概要描述信息和/或产品的详细描述信息;所述特征值包括结构化信息质量参数;所述按照预置规则根据预处理后各个域的信息,计算对应结构化信息的特征值的子步骤,进一步包括:采用线性回归模型,对结构化信息的产品主题信息、产品关键词信息、产品属性信息、产品的概要描述信息和产品的详细描述信息进行拟合,获得该结构化信息的结构化信息质量参数。4.根据权利要求1或2或3所述的方法,其特征在于,所述对所述结构化信息库中结构化信息中各个域的信息进行预处理包括:对结构化信息的字符进行大小写转化,和/或,非法字符、不可见字符、特殊字符过滤,和/或重复字符剔除的操作;和/或,对结构化信息的字符串进行分词,并针对分词后的字符去除词根,去除声调和/或过滤数字,获得单词的词干。5.根据权利要求2所述的方法,其特征在于,所述将预处理后的查询关键词在所述各个域的倒排索引中进行匹配,获得满足预设匹配规则的候选结构化信息的步骤,进一步包括:通过字符串匹配算法将预处理后的查询关键词在所述各个域的倒排索引中进行匹配,获得所述预处理后的查询关键词在各个域的匹配度参数;累加所述查询关键词在结构化信息各个域的匹配度参数,获得当前查询关键词的结构化信息相关性得分;按照所述相关性得分从高到低选取预设数量的结构化信息为候选结构化信息。6.根据权利要求5所述的方法,其特征在于,所述按照预设的计分规则根据所述结构化信息的序列化索引计算所述候选结构化信息的分值的步骤,进一步包括:根据所述第一结构化信息序列化索引计算所述候选结构化信息的第一评价参数;根据所述第二结构化信息序列化索引确定所述候选结构化信息的第二评价参数;根据所述第一评价参数和第二评价参数计算所述候选结构化信息的分值。7.根据权利要求6所述的方法,其特征在于,所述第一结构化信息序列化索引包括以下域信息的序列化数据:产品主题信息的序列化数据,产品关键词信息的序列化数据;所述第一评价参数为查询关键词与结构化信息的相关度参数,所述根据第一结构化信息序列化索引计算候选结构化信息的第一评价参数的子步骤进一步包括:通过以下公式计算第一评价参数Score0:Score0=F0(f1,f2,f3,f4,f5,f6),其中,所述f1为查询关键词与相应产品主题信息中相同单词与查询关键词长度的占比;所述f2为查询关键词与相应产品主题信息中相同单词与产品主题信息长度的占比情况;所述f3为查询关键词在包含查询关键词的产品主题信息中的占比;所述f4为查询关键词在包含查询关键词的产品关键词信息中的占比;所述f5为查询关键词与相应产品主题信息的序列化数据的匹配度;所述f6为查询关键词与相应产品关键词信息的序列化数据的匹配度;以及,所述F0为线性回归模型训练的模型函数。8.根据权利要求6所述的方法,其特征在于,所述根据第二结构化信息序列化索引确定所述候选结构化信息的第二评价参数的子步骤,进一步包括:提取所述候选结构化信息对应的第二结构化信息序列化索引中的结构化信息质量参数,将所述结构化信息质量参数作为对应结构化信息的第二评价参数。9.根据权利要求...
【专利技术属性】
技术研发人员:郑伟,林锋,金华兴,孙丽,刘清富,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。