一种描述词筛选方法及装置制造方法及图纸

技术编号:15400880 阅读:55 留言:0更新日期:2017-05-24 12:00
本申请公开了一种描述词筛选方法及装置,包括:针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词,并确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值;在针对该多个业务对象中的每个业务对象均进行上述统计之后,根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。采用本申请实施例提供的方案,提高了对业务对象的描述词确定的准确性。

Method and device for selecting descriptors

The invention discloses a descriptor screening method and device, including: for each business object of multiple business objects, including the description of dictionary description based on the content of the title from a business object, selected in the description of existing words in the lexicon description, and to determine whether the presence of description words are, in the specified description information of the business object if it exists, the first set in accordance with the corresponding statistical description of the incremental update existing word values, if it does not exist, according to second statistics set the existing incremental update descriptors corresponding values for each business object; after the multiple business objects are according to the statistics, the first statistical description dictionary includes the description words corresponding to the value and the second value of statistics, including the description of thesaurus descriptors were selected to To the updated descriptor dictionary. The scheme provided by the embodiment of the present invention improves the accuracy of the description of the business object.

【技术实现步骤摘要】
一种描述词筛选方法及装置
本申请涉及互联网
和计算机
,尤其涉及一种描述词筛选方法及装置。
技术介绍
在现有的互联网技术中,网站上一般会发布一些业务对象,供登录该网站的用户浏览,以及进一步的针对特定业务对象的后续处理操作。例如,以电子商务网站为例,业务对象具体可以是卖家用户发布的产品,业务对象的信息具体可以是对产品的各种特征的描述信息等,如产品的类型信息、价格信息、性能信息和品牌信息等,登录电子商务网站的用户可以通过浏览所发布产品的各种信息,了解该产品的详细情况,并可以进一步的执行收藏、购买或推荐给其他用户等处理操作;以社区网站为例,业务对象具体可以是社区用户发布的帖子,业务对象的信息具体可以是帖子的描述信息,帖子的内容信息等,登录社区网站的浏览用户可以通过浏览发布的帖子的各种信息,了解该帖子的详细情况,并可以进一步的执行收藏、回帖或推荐给其他用户等处理操作。在实际应用中,业务对象的描述信息可以是由业务对象的提供者在发布该业务对象时输入的,并且由于各种实际原因,如操作失误,对业务对象不够了解等原因,可能出现业务对象的提供者针对其提供的业务对象所输入的描述信息不准确的情况。例如,对于品牌信息的输入,可能由于提供者对业务对象的实际品牌不熟悉,或者认识错误等原因,导致输入的品牌词并非是一个真实存在的品牌。而此时如果将基于错误的品牌信息数据提取出来的品牌词列表,用于业务对象的品牌识别处理中,将会进一步的导致识别结果不准确,从而还需要进一步的对不准确的识别结果进行更正,从而浪费了处理资源,且降低了品牌识别的处理效率。
技术实现思路
有鉴于此,本申请实施例提供一种描述词筛选方法及装置,用于解决现有技术中存在的对业务对象的描述词确定不准确的问题。本申请实施例通过如下技术方案实现:本申请实施例提供了一种描述词筛选方法,包括:针对多个业务对象中的每个业务对象,执行如下步骤A和步骤B:步骤A:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;步骤B:确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;在针对所述多个业务对象中的每个业务对象,执行步骤A和步骤B之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。本申请实施例还提供了一种描述词筛选装置,包括:第一抽取单元,用于针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;统计单元,用于确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;筛选单元,用于在针对所述多个业务对象中的每个业务对象,通过所述第一抽取单元和所述统计单元进行处理之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。本申请实施例提供的上述至少一个技术方案中,在基于描述词词典包括的各描述词进行筛选时,首先针对多个业务对象中的每个业务对象,基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词,然后确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值;其中,当一个描述词在业务对象的标题内容和指定描述信息中均存在时,表示该描述词一定程度上是准确的,反之,当一个描述词只在业务对象的标题内容中存在,而在该业务对象的指定描述信息中不存在时,表示该描述词一定程度上是不准确的,所以,在对多个业务对象都完成上述统计之后,描述词词典包括的每个描述词都对应有第一统计值和第二统计值,并且,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确,从而根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,去除不准确的描述词,能够得到其中描述词更准确的更新后的描述词词典,即提高了所确定的描述词的准确性。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中:图1为本申请实施例提供的描述词筛选方法的流程图;图2为本申请实施例1中提供的描述词筛选方法的流程图;图3为本申请实施例1中提供的描述词识别处理的流程图;图4为本申请实施例2中提供的描述词筛选装置的结构示意图。具体实施方式为了给出提高确定业务对象的描述词的准确性的实现方案,本申请实施例提供了一种描述词筛选方法及装置,该技术方案可以应用于确定业务对象的描述词词典的过程,既可以实现为一种方法,也可以实现为一种装置。以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本申请实施例提供一种描述词筛选方法,如图1所示,包括:针对多个业务对象中的每个业务对象,执行如下步骤101和步骤102:步骤101:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在描述词词典中存在的描述词。步骤102:确定该存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新该存在的描述词对应的第一统计值,如果不存在,按照设定增量更新该存在的描述词对应的第二统计值。步骤103、在针对该多个业务对象中的每个业务对象,执行步骤101和步骤102之后,根据描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对描述词词典包括的各描述词进行筛选,得到更新后的描述词词典。其中,描述词词典包括的各描述词,可以是由在该多个业务对象的指定描述信息中出现过的描述词组成的。进一步的,本申请实施例提供的上述方法中,在得到更新后的描述词词典之后,可以针对更新后的描述词词典,采用上述图1所示的描述词筛选方式,对更新后的描述词词典包括的各描述词再次进行筛选,以便进一步的提高描述词词典所包括的描述词的准确性。进一步的,本申请实施例提供的上述方法中,在得到更新后的描述词词典之后,即可以基于该更新后的描述词词典包括的各描述词,对一个业务对象进行描述词识别处理,以补充该业务对象的指定描述信息,或者纠正该业务对象的指定描述信息中不准确的描述词,针对一个待处理业务对象,具体可以包括:基于更新后的描述词词典包括的各描述词,从待处理业务对象的标题内容中,抽取在更新后的描述词词典中存在的描述词;当抽取的该描述词在待处理业务对象的指定描述信息本文档来自技高网...
一种描述词筛选方法及装置

【技术保护点】
一种描述词筛选方法,其特征在于,包括:针对多个业务对象中的每个业务对象,执行如下步骤A和步骤B:步骤A:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;步骤B:确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;在针对所述多个业务对象中的每个业务对象,执行步骤A和步骤B之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典,其中,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确。

【技术特征摘要】
1.一种描述词筛选方法,其特征在于,包括:针对多个业务对象中的每个业务对象,执行如下步骤A和步骤B:步骤A:基于描述词词典包括的各描述词,从该业务对象的标题内容中,抽取在所述描述词词典中存在的描述词;步骤B:确定所述存在的描述词在该业务对象的指定描述信息中是否存在,如果存在,按照设定增量更新所述存在的描述词对应的第一统计值,如果不存在,按照所述设定增量更新所述存在的描述词对应的第二统计值;在针对所述多个业务对象中的每个业务对象,执行步骤A和步骤B之后,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,得到更新后的描述词词典,其中,对应的第一统计值越大表示该描述词越准确,对应的第二统计值越大表示该描述词越不准确。2.如权利要求1所述的方法,其特征在于,描述词词典的确定方法包括:确定所述多个业务对象的指定描述信息中的描述词;将在所述多个业务对象的指定描述信息中出现过的描述词组成描述词词典。3.如权利要求2所述的方法,其特征在于,还包括:分别统计所述描述词词典包括的各描述词在所述多个业务对象的指定描述信息中出现的次数;根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,具体为:根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,以及在所述多个业务对象的指定描述信息中出现的次数,对所述描述词词典包括的各描述词进行筛选。4.如权利要求1所述的方法,其特征在于,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,具体包括:根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,确定所述描述词词典包括的各描述词的综合分值;并按照综合分值的高低,对所述描述词词典包括的各描述词进行筛选。5.如权利要求4所述的方法,其特征在于,所述综合分值采用如下公式计算:Score=log(C+n1)+((P+n2)/(N+n2)+1)/Th;其中,Score为一个描述词的综合分值,C为该描述词在该多个业务对象的指定描述信息中出现的次数,P为该描述词对应的第一统计值,N为该描述词对应的第二统计值,Th为调整阈值,n1及n2为平滑调整系数。6.如权利要求1所述的方法,其特征在于,根据所述描述词词典包括的各描述词分别对应的第一统计值和第二统计值,对所述描述词词典包括的各描述词进行筛选,具体包括:从所述描述词词典包括的各描述词中,选择对应的第一统计值满足第一预设统计值条件,且对应的第二统计值满足第二预设统计值条件的描述词,组成更新后的描述词词典。7.如权利要求1所述的方法,其特征在于,还包括:基于所述更新后的描述词词典包括的各描述词,从待处理业务对象的标题内容中,抽取在所述更新后的描述词词典中存在的描述词;当抽取的该描述词在所述待处理业务对象的指...

【专利技术属性】
技术研发人员:侯磊李军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1