一种基于交易平台的结构化信息搜索方法和装置制造方法及图纸

技术编号:9170966 阅读:118 留言:0更新日期:2013-09-19 19:29
本申请提供了一种基于交易平台的结构化信息搜索方法和一种基于交易平台的结构化信息搜索装置,其中,所述方法包括:接收搜索需求信息;对所述搜索需求信息进行分词,获得关键词字段;在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;根据所述候选结构化信息的分值进行排序。本申请可以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。

【技术实现步骤摘要】
一种基于交易平台的结构化信息搜索方法和装置
本申请涉及交易平台数据处理的
,特别是涉及一种基于交易平台的结构化信息搜索方法和一种基于交易平台的结构化信息搜索装置。
技术介绍
在因特网开放的网络环境下,基于网络通讯技术,买卖双方可不谋面地通过交易平台进行各种商贸活动,实现消费者的网上购物、商户之间的网上交易和在线电子支付,以及各种商务活动、交易活动、金融活动和相关的综合服务活动。目前,交易平台一般可分为企业对企业(Business-to-Business,B2B)、企业对消费者(Business-to-Customer,B2C)、消费者对消费者(Customer-to-Customer,C2C)等模式。近几年来,国内交易平台迅速发展,各种B2B、C2C、B2C模式的交易平台(俗称购物网站),如淘宝网、当当网、卓越亚马逊、拍拍网、京东商城等,已被用户认可和接受。供应商在交易平台发布所供应的产品信息,形成产品信息集合,如果发布的产品信息较多,供应商可以进一步按照一定的规则对产品信息进行分组。还可以设置相应产品的橱窗信息以供买家浏览。买家在采购产品时,可以在交易平台搜索和筛选满意的供应商以进行交易。采用现有技术,买家可以在预先知道供应商ID的情况下,在搜索栏内基于供应商ID进行搜索,获得对应供应商所经营产品的相关信息。然而在大多数情况下,买家只能使用自定义的查询词在交易平台搜索自己关心或欲购买的产品,再通过产品信息找到对应供应商的信息,获得该供应商所经营产品的相关信息。并且,采用此种方式获得的供应商往往不是最佳的供应商,还需要买家进一步进行人工筛选。因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提出一种全新的基于交易平台的结构化信息搜索机制,用以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。
技术实现思路
本申请的目的是提供一种基于交易平台的结构化信息搜索方法和装置,用以提供买家个性化搜索的功能,使买家能快速、简单地搜索到其所需的最佳供应商。为了解决上述问题,本申请公开了一种基于交易平台的结构化信息搜索方法,包括:接收搜索需求信息;对所述搜索需求信息进行分词,获得关键词字段;在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;根据所述候选结构化信息的分值进行排序。优选的,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;或者,用户提交的产品信息关键词和后台生成的产品信息关键词。优选的,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。优选的,所述预置的结构化信息库中包括多个结构化信息索引文件,所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;若采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K,则进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。优选的,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。优选的,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。优选的,采用以下公式计算第一文本相似度:其中,weight(Wi)表示关键词单词字段的属性所对应的权重;percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);和/或,采用以下公式计算第二文本相似度:其中,weight(PHi)表示关键词短语字段的属性所对应的权重;percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi);和/或,采用以下公式计算第三文本相似度:KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第一文本相似度;和/或,采用以下公式计算第四文本相似度:PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity其中,Wp是供应商分组的辅助关键词的配置权重,Similarity为第二文本相似度。优选的,采用以下公式根据第一文本相似度、第二文本相似度本文档来自技高网
...
一种基于交易平台的结构化信息搜索方法和装置

【技术保护点】
一种基于交易平台的结构化信息搜索方法,其特征在于,包括:接收搜索需求信息;对所述搜索需求信息进行分词,获得关键词字段;在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;根据所述候选结构化信息的分值进行排序。

【技术特征摘要】
1.一种基于交易平台的结构化信息搜索方法,其特征在于,包括:接收搜索需求信息;对所述搜索需求信息进行分词,获得关键词字段;在预置的结构化信息库中,查找与所述关键词字段匹配的候选结构化信息;采用所述关键词字段在所述候选结构化信息中计算文本相似度,以及,获取所述候选结构化信息的特征属性参数;根据所述文本相似度和特征属性参数计算所述候选结构化信息的分值;根据所述候选结构化信息的分值进行排序。2.根据权利要求1所述的方法,其特征在于,所述搜索需求信息包括产品信息关键词,所述产品信息关键词包括:用户提交的产品信息关键词;或者,用户提交的产品信息关键词和后台生成的产品信息关键词。3.根据权利要求2所述的方法,其特征在于,所述分词后获得的关键词字段包括:关键词短语字段和关键词单词字段。4.根据权利要求3所述的方法,其特征在于,所述预置的结构化信息库中包括多个结构化信息索引文件,所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:采用所述关键词短语字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值;若采用所述关键词短语字段查询结构化信息索引文件返回的结构化信息为L个,且所述L<K,则进一步采用关键词单词字段查询索引文件,提取最相似的K-L个结构化信息,所述L个结构化信息以及K-L个结构化信息组成候选结构化信息。5.根据权利要求2所述的方法,其特征在于,所述分词后获得的关键词字段仅包括关键词单词字段,所述预置的结构化信息库包括多个结构化信息索引文件;所述在预置的结构化信息库中查找与关键词字段匹配的候选结构化信息的步骤包括:采用所述关键词单词字段查询结构化信息索引文件,提取最相似的K个结构化信息为候选结构化信息;其中,所述K为预设的数量阈值。6.根据权利要求2或3或4所述的方法,其特征在于,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;根据所述第一文本相似度和第二文本相似度生成相应候选供应商的产品分组信息的文本相似度。7.根据权利要求2或3或4所述的方法,其特征在于,所述结构化信息为供应商的产品分组信息,所述供应商的产品分组信息中包括供应商分组的主要关键词和供应商分组的辅助关键词,所述采用关键词字段在所述候选结构化信息中计算文本相似度的步骤包括:计算第一文本相似度,所述第一文本相似度为所述关键词单词字段与候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第二文本相似度,所述第二文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的主要关键词的文本相似度;计算第三文本相似度,所述第三文本相似度为所述关键词单词字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;计算第四文本相似度,所述第四文本相似度为所述关键词短语字段与相应候选供应商的产品分组信息中的供应商分组的辅助关键词的文本相似度;根据所述第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度。8.根据权利要求7所述的方法,其特征在于,采用以下公式计算第一文本相似度:其中,weight(Wi)表示关键词单词字段的属性所对应的权重;percent(Wi)表示关键词单词字段在供应商的产品分组信息中所占的百分比;NameOrComment(Wi)表示与供应商分组的主要关键词匹配的关键词单词字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词单词字段属于用户提交的产品信息关键词的权重Name(Wi),或者,与供应商分组的主要关键词匹配的关键词单词字段属于后台生成的产品信息关键词的权重Comment(Wi);和/或,采用以下公式计算第二文本相似度:其中,weight(PHi)表示关键词短语字段的属性所对应的权重;percent(PHi)表示关键词短语字段所占供应商的产品分组信息的百分比;NameOrComment(PHi)表示与供应商分组的主要关键词匹配的关键词短语字段属于产品信息关键词的权重,取值为与供应商分组的主要关键词匹配的关键词短语字段属于用户提交的产品信息关键词的权重Name(PHi),或者,与供应商分组的主要关键词匹配的关键词短语字段属于后台生成的产品信息关键词的权重Comment(PHi);和/或,采用以下公式计算第三文本相似度:KeywordsSimilarity=ProductServiceWordSimilarity*Wp+(1-Wp)*Similarity其中,ProductServiceWordSimilarity为供应商分组的辅助关键词和关键词单词字段的相似度,Wp是供应商分组的辅助关键词的配置权重,Similarity为第一文本相似度;和/或,采用以下公式计算第四文本相似度:PhrasesSimilarity=ProductServicePhraseSimilarity*Wp+(1-Wp)*Similarity其中,ProductServicePhraseSimilarity为供应商分组的辅助关键词和关键词短语字段的相似度,Wp是供应商分组的辅助关键词的配置权重,Similarity为第二文本相似度。9.根据权利要求8所述的方法,其特征在于,采用以下公式根据第一文本相似度、第二文本相似度、第三文本相似度和第四文本相似度生成相应候选供应商的产品分组信息的文本相似度:TextSimilarity=KeywordsSimilarity*W1+PhrasesSimilarity*W2其中,W1和W2分别为配置的权重。10.根据权利要求9所述的方法,其特征在于,所述特征属性参数包括主营系数,所述主营系数为各供应商的产品分组信息主营程度的得分;所述根据文本相似度和特征属性参数计算所述候选结构化信息的分值的步骤采用如下公式进行计算:Similarity=TextSimilaety*(1-Wm)+主营系数*Wm其中,Wm是主营系数的权重。11.根据权利要求8或9或10所述的方法,其特征在于,所述特征属性参数还包括所述候选结构化信息的公共指标得分;所述公共指标得分采用如下公式进行计算:Scorepublic=ΣiPi*Wi,i=1,2其中,P1为供应商的活跃度,P2为供应商的报价响应度,W1、W2为各自所占的权重。12.根据权利要求11所述的方法,其特征在于,所述搜索需求信息还包括:供应商类型的用户要求信息,供应商规模的用户要求信息,供应商的主要市场的用户要求信息,产品类目的用户要求信息,和/或,供应商最小起定量的...

【专利技术属性】
技术研发人员:陈旭陈智强顾海杰王德胜何亮
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1