【技术实现步骤摘要】
文本处理方法及装置
本申请涉及计算机
,特别是涉及一种文本处理方法及装置。
技术介绍
随着技术的飞速发展,市面上出现了很多用于销售商品的电商平台。例如,某一电商平台销售有多个商品,电商平台会将销售的所有商品的商品名称存储在商品名称集合中,例如马铃薯、胡萝卜以及芹菜等等,假设用户需要在电商平台上购买马铃薯,但是该用户通常使用薯仔来表示马铃薯,因此,用户在电子设备中登录电商平台的页面之后,往往会在搜索框中输入搜索词“薯仔”来搜索关于马铃薯的信息。然而搜索词“薯仔”并未存储在商品名称集合中,也即,无法搜索到搜索词“薯仔”所对应的商品,无法向用户反馈搜索词“薯仔”所对应的商品,用户也就无法查看到搜索词“薯仔”所对应的商品,从而无法购买搜索词“薯仔”所对应的商品,导致用户体验较低。
技术实现思路
为解决上述技术问题,本申请实施例示出了一种文本处理方法及装置。第一方面,本申请实施例示出了一种文本处理方法,所述方法包括:获取第一文本;如果预设文本集合中不存在所述第一文本,则将所述第一文本拆分为至少一个分词;获取每一个分词中的所有的笔画的顺序;使用每一个分词中的所有的笔画的顺序和预设语义模型,在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。在一个可选的实现方式中,所述预设语义模型包括基于神经网络的语义模型。在一个可选的实现方式中,所述预设语义模型通过如下方式得到:获取样本文本和与样本文本之间的语义相 ...
【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:/n获取第一文本;/n如果预设文本集合中不存在所述第一文本,则将所述第一文本拆分为至少一个分词;/n获取每一个分词中的所有的笔画的顺序;/n使用每一个分词中的所有的笔画的顺序和预设语义模型,在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。/n
【技术特征摘要】 【专利技术属性】
1.一种文本处理方法,其特征在于,所述方法包括:
获取第一文本;
如果预设文本集合中不存在所述第一文本,则将所述第一文本拆分为至少一个分词;
获取每一个分词中的所有的笔画的顺序;
使用每一个分词中的所有的笔画的顺序和预设语义模型,在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。
2.根据权利要求1所述的方法,其特征在于,所述预设语义模型包括基于神经网络的语义模型。
3.根据权利要求2所述的方法,其特征在于,所述预设语义模型通过如下方式得到:
获取样本文本和与样本文本之间的语义相似度小于预设阈值的相似文本;
获取样本文本中的每一个分词的所有的笔画的顺序;
获取相似文本中的每一个分词的所有的笔画的顺序;
使用所述样本文本中的每一个分词的所有的笔画的顺序和所述相似文本中的每一个分词的所有的笔画的顺序对预设的模型进行训练,直至所述预设的模型中的参数均收敛,从而得到所述预设语义模型。
4.根据权利要求3所述的方法,其特征在于,所述使用每一个分词中的所有的笔画的顺序和预设语义模型,在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本,包括:
对于每一个分词,根据所述分词中的所有的笔画的顺序获取所述分词的分词向量;
使用每一个分词的分词向量和所述预设语义模型,在所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。
5.根据权利要求4所述的方法,其特征在于,所述预设的模型包括级联的卷积CNN、长短期记忆网络LSTM以及归一化指数函数SOFTMAX。
6.根据权利要求5所述的方法,其特征在于,所述使用每一个分词的分词向量和所述预设语义模型,在所述预设文本集合中获取所述第二文本,包括:
通过所述预设语义模型中的CNN对每一个分词的分词向量分别池化处理,得到池化处理后的每一个分词的分词向量;
根据所述预设语义模型中的LSTM和池化处理后的每一个分词的分词向量获取每一个分词之间的关联关系;
根据每一个分词之间的关联关系和所述预设语义模型中的SOFTMAX从所述预设文本集合中获取与所述第一文本之间的语义相似度大于预设阈值的第二文本。
7.根据权利要求4所述的方法,其特征在于,所述根据所述分词中的所有的笔画的顺序获取所述分词的分词向量,包括:
在所述分词中的所有的笔画的顺序中,将每相邻的至少两个笔画的顺序分别组成一个新的笔画的顺序,得到多个新的笔画的顺序;
根据每一个新的笔画的顺序分别确定所述分词的一个分词向量,得到所述分词的多个分词向量。
8.根据权利要求1所述的方法,其特征在于,所述获取每一个分词中的所有的笔画的顺序,包括:
对于每一个分词,获取所述分词中包括的每一个象形文字;
分别获取每一个象形文字的笔画的顺序;
根据每一个象形文字在所述分词中的位置将每一个象形文字的笔画的顺序组成所述分词中的所有的笔画的顺序。
9.根据权利要求8所述的方法,其特征在于,所述分别获取每一个象形文字的笔画的顺序,包括:
在象形文字与笔画的顺序之间的预设对应关系中,分别查找与每一个象形文字相对应的笔画的顺序。
10.根据权利要求8或9所述的方法,其特征在于,所述象形文字包括:汉语中的文字、韩语中的文字以及日语中的文字。
11.一种搜索方法,其特征在于,所述方法包括:
获取在搜索框中输入的第一搜索关键词;
如果预设搜索关键词集合中不存在所述第一搜索关键词,则将所述第一搜索关键词拆分为至少一个搜索分词;
获取每一个搜索分词中的所有的笔画的顺序;
使用每一个搜索分词中的所有的笔画的顺序和预设语义模型,在所述预设搜索关键词集合中获取与所述第一搜索关键词之间的语义相似度大于预设阈值的第二搜索关键词;
使用所述第二搜索关键词进行搜索。
12.一种文本处理装置,其特征在于,所述装置包括:
技术研发人员:徐光伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。