【技术实现步骤摘要】
本专利技术涉及计算机
,尤其涉及一种用于确定同义文本的方法和装置。
技术介绍
当用户在互联网上进行搜索时,很有可能会采用不同名称来表达同一个搜索对象;例如,对于应用“where is my water”,用户在搜索时可能采用“鳄鱼爱洗澡”、“鳄鱼爱冲凉”、“鳄鱼小顽皮”等名称来对其进行搜索;又例如,用户所搜索的“掌上百度”和“掌百” 可能为同一搜索对象等。因此,搜索技术中需要识别这些名称不同,但表示同一搜索对象的文本序列。现有技术中存在的识别表示同一搜索对象的文本序列的方式包括I)由人工进行识别和标记;2)通过语义上的同义词识别,如识别出“洗澡”和“冲凉”为语义上的同义词等,来识别表示同一搜索对象的文本序列。然而,人工识别和标记的方式滞后性大、且能够识别的搜索对象有限,人工成本也较高;语义识别的识别率低,例如,对于一些语义上差别极大,但仍表示同一搜索对象的文本序列,则无法识别;并且,上述两种方式均具有覆盖面低的问题。
技术实现思路
本专利技术的目的是提供一种用于确定同义文本的方法和装置。根据本专利技术的一个方面,提供了一种用于建立或更新候选同义序列库的方法,其 ...
【技术保护点】
一种用于建立或更新候选同义序列库的方法,其中,该方法包括以下步骤:A将待处理的文本序列的第一搜索结果与其待挖掘序列的第二搜索结果进行匹配;其中,该方法还包括以下步骤:X当所述匹配的结果符合第一预定条件时,根据所述待挖掘序列建立或更新所述待处理的文本序列的候选同义序列库;其中,所述第一预定条件包括所述第一搜索结果与所述第二搜索结果包含至少一个相同的搜索结果项。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘钦,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。