一种用于确定同义文本的方法和装置制造方法及图纸

技术编号:8453067 阅读:210 留言:0更新日期:2013-03-21 17:22
本发明专利技术提供一种用于确定同义文本的方法和装置。本发明专利技术对待处理的文本序列进行切词,获得至少一个文本片段;并根据所述至少一个文本片段,在所述文本序列的候选同义序列中进行查询,获得包含所述至少一个文本片段或其同义词中的一个或多个的候选同义序列;并从所述候选同义文本中选择所述文本序列的同义文本。与现有技术相比,本发明专利技术能够获得现有技术中难以召回的待处理文本序列的同义词,并能较好地提高待处理文本序列的同义词判断准确性。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种用于确定同义文本的方法和装置
技术介绍
当用户在互联网上进行搜索时,很有可能会采用不同名称来表达同一个搜索对象;例如,对于应用“where is my water”,用户在搜索时可能采用“鳄鱼爱洗澡”、“鳄鱼爱冲凉”、“鳄鱼小顽皮”等名称来对其进行搜索;又例如,用户所搜索的“掌上百度”和“掌百” 可能为同一搜索对象等。因此,搜索技术中需要识别这些名称不同,但表示同一搜索对象的文本序列。现有技术中存在的识别表示同一搜索对象的文本序列的方式包括I)由人工进行识别和标记;2)通过语义上的同义词识别,如识别出“洗澡”和“冲凉”为语义上的同义词等,来识别表示同一搜索对象的文本序列。然而,人工识别和标记的方式滞后性大、且能够识别的搜索对象有限,人工成本也较高;语义识别的识别率低,例如,对于一些语义上差别极大,但仍表示同一搜索对象的文本序列,则无法识别;并且,上述两种方式均具有覆盖面低的问题。
技术实现思路
本专利技术的目的是提供一种用于确定同义文本的方法和装置。根据本专利技术的一个方面,提供了一种用于建立或更新候选同义序列库的方法,其中,该方法包括以下步本文档来自技高网...

【技术保护点】
一种用于建立或更新候选同义序列库的方法,其中,该方法包括以下步骤:A将待处理的文本序列的第一搜索结果与其待挖掘序列的第二搜索结果进行匹配;其中,该方法还包括以下步骤:X当所述匹配的结果符合第一预定条件时,根据所述待挖掘序列建立或更新所述待处理的文本序列的候选同义序列库;其中,所述第一预定条件包括所述第一搜索结果与所述第二搜索结果包含至少一个相同的搜索结果项。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘钦
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1