文本处理方法及装置制造方法及图纸

技术编号:34347107 阅读:19 留言:0更新日期:2022-07-31 05:01
本申请实施例公开了一种文本处理方法及装置,其中方法包括:对原始搜索文本进行分词处理,得到M个分词,M为正整数;根据同义词表对M个分词依次进行同义词改写,得到第M候选文本集合;同义词表用于指示语义词与语义词的同义词的对应关系;第M候选文本集合中每个候选文本与原始搜索文本语义相同;从第M候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,改写概率由候选文本关联的歌单的播放量确定;根据目标文本集合确定搜索输入文本,搜索输入文本用于搜索得到歌单。本申请可以提高对文本进行同义词改写的准确率。确率。确率。

Text processing method and device

【技术实现步骤摘要】
文本处理方法及装置


[0001]本专利技术涉及文本处理
,尤其涉及一种文本处理方法及装置。

技术介绍

[0002]通常,当用户进行音乐搜索时,会采用歌手名、歌曲名或语义类描述作为搜索词条在音乐平台中进行匹配。其中,用户根据歌手名或歌曲名搜索可以精确匹配到同一类歌曲。而当用户根据语义类描述(如“睡眠”、“助眠”等语义词)搜索时,对于同一类歌曲,不同用户往往采用丰富且不同的搜索词条。因此,音乐平台可以对搜索词条进行同义词改写,以提高同一类歌曲的召回能力,增强搜索结果的多样性。例如,用户搜索“催眠曲”时,可以将“催眠曲”改写为“安眠曲”、“助眠曲”等,以便音乐平台可以根据“催眠曲”、安眠曲”和“助眠曲”共同匹配歌曲。
[0003]目前,同义词改写主要基于同义词挖掘与替换的方法。基于同义词挖掘与替换的方法需要先通过日志信息挖掘同义词表,再使用该同义词表对搜索词条进行同义词改写。该方式中的日志信息无法满足音乐领域内的同义词的改写需求,存在数据缺失或者不准确的问题,同义词改写准确率不高。

技术实现思路

[0004]本申请实施例提供一种文本处理方法及装置,可以提高对文本进行同义词改写的准确率。
[0005]第一方面,本申请实施例提供了一种文本处理方法,该方法包括:
[0006]对原始搜索文本进行分词处理,得到M个分词,M为正整数;
[0007]根据同义词表对所述M个分词依次进行同义词改写,得到第M候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第M候选文本集合中每个候选文本与所述原始搜索文本语义相同;
[0008]从所述第M候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,所述改写概率由所述候选文本关联的歌单的播放量确定;
[0009]根据所述目标文本集合确定搜索输入文本,所述搜索输入文本用于搜索得到歌单。
[0010]基于第一方面所描述的方法,本申请可以使用同义词表依次对原始搜索文本中的分词进行同义词改写,并在改写后通过关联的歌单播放量对改写概率(或称为改写质量)进行评估以筛选改写结果。该方式提高了同义词改写的准确率。
[0011]在一种可能实施方式中,所述根据同义词表对所述M个分词依次进行同义词改写,得到第M候选文本集合,包括:
[0012]将N设置为1,获取第N

1候选文本集合,所述第N

1候选文本集合包括至少一个候选文本,所述至少一个候选文本中每个候选文本与所述原始搜索文本语义相同,且所述每个候选文本的前N

1个分词经过同义词改写处理,N为正整数,且N小于或者等于M;
[0013]在同义词表中查找所述每个候选文本的第N个分词对应的同义词集合;
[0014]基于所述同义词集合对所述每个候选文本中的第N个分词进行同义词改写,得到待处理候选文本集合;
[0015]确定所述待处理候选文本集合中每个待处理候选文本的改写概率;
[0016]基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第N候选文本集合;
[0017]若所述N不等于M,对N执行加1操作,返回执行所述获取第N

1候选文本集合的步骤。
[0018]基于该方式,本申请可以依次对M个分词进行同义词改写,改写过程中也采取改写概率对每一个分词对应的待处理候选文本进行筛选。
[0019]在一种可能实施方式中,所述确定所述待处理候选文本集合中每个待处理候选文本的改写概率,包括:
[0020]将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;
[0021]根据所述每个待处理候选文本中第N个分词对应的替换概率,确定所述每个待处理候选文本的第二概率;所述第N个分词对应的替换概率由与所述第N个分词所在的第二处理片段相关的歌单的播放量确定,所述第二处理片段与所述第N个分词的上下文相关;
[0022]将所述第一概率和所述第二概率的乘积作为所述改写概率。
[0023]基于该方式,本申请可以通过每个待处理候选文本中第一处理片段和第二处理片段与歌单播放量之间的关联关系,评估每个待处理候选文本召回歌单的常见性,进而对每个待处理候选文本的改写质量进行评估(召回的歌单播放量越高,歌单越常见,待处理候选文本的改写质量越好)。
[0024]在一种可能实施方式中,所述第一处理片段相关的歌单的播放量是歌单库中歌单标题与所述第一处理片段相同的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题与所述第二处理片段相同的歌单的播放量;或者,
[0025]所述第一处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第一处理片段的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第二处理片段的歌单的播放量。
[0026]基于该方式,本申请可以依据第一处理片段和第二处理片段与歌单标题的完整匹配情况或部分匹配情况来评估改写质量。其中,依据部分匹配的方式相较于完整匹配的方式,该方式提高了匹配情况的数量,增加了匹配情况的多样性。
[0027]在一种可能实施方式中,确定待处理候选文本集合中每个待处理候选文本的改写概率,包括:
[0028]将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;
[0029]获取所述每个待处理候选文本相关的歌单的历史点击率;
[0030]将所述第一概率和所述历史点击率的乘积作为所述改写概率。
[0031]基于该方式,本申请以相关歌单的播放量和历史点击率两个维度对待处理候选文本的改写质量进行评估,提高了评估的准确率。
[0032]在一种可能实施方式中,所述基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第N候选文本集合,包括:
[0033]从所述待处理候选文本集合中删除第一待处理候选文本及第二待处理候选文本,得到预选集合;所述第一待处理候选文本的前N

1个分词中存在与所述第N个分词或所述第N个分词的同义词相同的分词,所述第二待处理候选文本为分词相同且组合顺序不同的多个待处理候选文本中改写概率不为最大的待处理候选文本;
[0034]基于所述改写概率从所述预选集合中选取预设数量的待处理候选文本,组成所述第N候选文本集合。
[0035]基于该方式,本申请可以将经过改写处理后与前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:对原始搜索文本进行分词处理,得到M个分词,M为正整数;根据同义词表对所述M个分词依次进行同义词改写,得到第M候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第M候选文本集合中每个候选文本与所述原始搜索文本语义相同;从所述第M候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,所述改写概率由所述候选文本关联的歌单的播放量确定;根据所述目标文本集合确定搜索输入文本,所述搜索输入文本用于搜索得到歌单。2.根据权利要求1所述的方法,其特征在于,所述根据同义词表对所述M个分词依次进行同义词改写,得到第M候选文本集合,包括:将N设置为1,获取第N

1候选文本集合,所述第N

1候选文本集合包括至少一个候选文本,所述至少一个候选文本中每个候选文本与所述原始搜索文本语义相同,且所述每个候选文本的前N

1个分词经过同义词改写处理;在同义词表中查找所述每个候选文本的第N个分词对应的同义词集合;基于所述同义词集合对所述每个候选文本中的第N个分词进行同义词改写,得到待处理候选文本集合;确定所述待处理候选文本集合中每个待处理候选文本的改写概率;基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第N候选文本集合;若所述N不等于M,对N执行加1操作,返回执行所述获取第N

1候选文本集合的步骤。3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理候选文本集合中每个待处理候选文本的改写概率,包括:将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;根据所述每个待处理候选文本中第N个分词对应的替换概率,确定所述每个待处理候选文本的第二概率;所述第N个分词对应的替换概率由与所述第N个分词所在的第二处理片段相关的歌单的播放量确定,所述第二处理片段与所述第N个分词的上下文相关;将所述第一概率和所述第二概率的乘积作为所述改写概率。4.根据权利要求3所述的方法,其特征在于,所述第一处理片段相关的歌单的播放量是歌单库中歌单标题与所述第一处理片段相同的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题与所述第二处理片段相同的歌单的播放量;或者,所述第一处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第一处理片段的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第二处理片段的歌单的...

【专利技术属性】
技术研发人员:杨羽菲周蓝珺潘树燊
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1