【技术实现步骤摘要】
文本处理方法及装置
[0001]本专利技术涉及文本处理
,尤其涉及一种文本处理方法及装置。
技术介绍
[0002]通常,当用户进行音乐搜索时,会采用歌手名、歌曲名或语义类描述作为搜索词条在音乐平台中进行匹配。其中,用户根据歌手名或歌曲名搜索可以精确匹配到同一类歌曲。而当用户根据语义类描述(如“睡眠”、“助眠”等语义词)搜索时,对于同一类歌曲,不同用户往往采用丰富且不同的搜索词条。因此,音乐平台可以对搜索词条进行同义词改写,以提高同一类歌曲的召回能力,增强搜索结果的多样性。例如,用户搜索“催眠曲”时,可以将“催眠曲”改写为“安眠曲”、“助眠曲”等,以便音乐平台可以根据“催眠曲”、安眠曲”和“助眠曲”共同匹配歌曲。
[0003]目前,同义词改写主要基于同义词挖掘与替换的方法。基于同义词挖掘与替换的方法需要先通过日志信息挖掘同义词表,再使用该同义词表对搜索词条进行同义词改写。该方式中的日志信息无法满足音乐领域内的同义词的改写需求,存在数据缺失或者不准确的问题,同义词改写准确率不高。
技术实现思路
[0004]本申请实施例提供一种文本处理方法及装置,可以提高对文本进行同义词改写的准确率。
[0005]第一方面,本申请实施例提供了一种文本处理方法,该方法包括:
[0006]对原始搜索文本进行分词处理,得到M个分词,M为正整数;
[0007]根据同义词表对所述M个分词依次进行同义词改写,得到第M候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第M候 ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:对原始搜索文本进行分词处理,得到M个分词,M为正整数;根据同义词表对所述M个分词依次进行同义词改写,得到第M候选文本集合;所述同义词表用于指示语义词与所述语义词的同义词的对应关系;所述第M候选文本集合中每个候选文本与所述原始搜索文本语义相同;从所述第M候选文本集合中选取改写概率超过预设改写阈值的候选文本,组成目标文本集合,所述改写概率由所述候选文本关联的歌单的播放量确定;根据所述目标文本集合确定搜索输入文本,所述搜索输入文本用于搜索得到歌单。2.根据权利要求1所述的方法,其特征在于,所述根据同义词表对所述M个分词依次进行同义词改写,得到第M候选文本集合,包括:将N设置为1,获取第N
‑
1候选文本集合,所述第N
‑
1候选文本集合包括至少一个候选文本,所述至少一个候选文本中每个候选文本与所述原始搜索文本语义相同,且所述每个候选文本的前N
‑
1个分词经过同义词改写处理;在同义词表中查找所述每个候选文本的第N个分词对应的同义词集合;基于所述同义词集合对所述每个候选文本中的第N个分词进行同义词改写,得到待处理候选文本集合;确定所述待处理候选文本集合中每个待处理候选文本的改写概率;基于所述每个待处理候选文本的改写概率从所述待处理候选文本集合中选取预设数量的待处理候选文本,组成第N候选文本集合;若所述N不等于M,对N执行加1操作,返回执行所述获取第N
‑
1候选文本集合的步骤。3.根据权利要求2所述的方法,其特征在于,所述确定所述待处理候选文本集合中每个待处理候选文本的改写概率,包括:将所述每个待处理候选文本中各个分词对应的条件概率的乘积作为所述每个待处理候选文本的第一概率;任一分词对应的条件概率由所述任一分词所在的第一处理片段相关的歌单的播放量确定,所述第一处理片段包括至少两个相邻分词且所述任一分词为所述至少两个相邻分词中的最后一个分词;根据所述每个待处理候选文本中第N个分词对应的替换概率,确定所述每个待处理候选文本的第二概率;所述第N个分词对应的替换概率由与所述第N个分词所在的第二处理片段相关的歌单的播放量确定,所述第二处理片段与所述第N个分词的上下文相关;将所述第一概率和所述第二概率的乘积作为所述改写概率。4.根据权利要求3所述的方法,其特征在于,所述第一处理片段相关的歌单的播放量是歌单库中歌单标题与所述第一处理片段相同的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题与所述第二处理片段相同的歌单的播放量;或者,所述第一处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第一处理片段的歌单的播放量;所述第二处理片段相关的歌单的播放量是所述歌单库中歌单标题包含所述第二处理片段的歌单的...
【专利技术属性】
技术研发人员:杨羽菲,周蓝珺,潘树燊,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。