【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及文本处理方法、装置及相关设备。
技术介绍
1、目前,由于计算机设备只能处理数值数据,而难以理解文本中的句子、词语的信息,基于此,在对文本进行处理时,可以将文本中的词语编码为数值数据进行表征,以使得计算机设备能够更好地理解和处理文本内容。因此,如何对词语进行编码成为一个研究的热点话题。
技术实现思路
1、本申请实施例提供了一种文本处理方法、装置及相关设备,能够通过由组合词语对m个词语进行替换,来降低目标词库中的词语数量,并对目标词库中的词语进行编码,从而降低词语的编码的维度数量,提高编码效率。
2、本申请实施例一方面提供了一种文本处理方法,方法包括:
3、对多个文本进行分词处理,得到第一词库和第二词库;其中,第二词库中的每个词语的字数均大于第一词库中每个词语的字数;
4、获取由第一词库中的m个词语组成的组合词语;m小于或等于第一词库所包括词语的数量;
5、在组合词语和第二词库相匹配的情况下,删除第一词库中的m个词语,
...【技术保护点】
1.一种文本处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
3.如权利要求1所述的方法,其特征在于,所述对所述目标词库中的每个词语进行编码处理,得到每个词语对应的词语编码,包括:
4.如权利要求3所述的方法,其特征在于,所述基于所述目标词库中的各个词语之间的语义相似度和相似度阈值,确定所述目标词库中的每个词语对应的词语编码,包括:
5.如权利要求3所述的方法,其特征在于,所述针对所述目标词库中的每个词语,基于所述词语在所述多个文本中的出现次数和次数阈值,确定所述词语对应的词
...【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
3.如权利要求1所述的方法,其特征在于,所述对所述目标词库中的每个词语进行编码处理,得到每个词语对应的词语编码,包括:
4.如权利要求3所述的方法,其特征在于,所述基于所述目标词库中的各个词语之间的语义相似度和相似度阈值,确定所述目标词库中的每个词语对应的词语编码,包括:
5.如权利要求3所述的方法,其特征在于,所述针对所述目标词库中的每个词语,基于所述词语在所述多个文本中的出现次数和次数阈值,确定所述词语对应的词语编码,包括:
6.如权利要求1所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:李长林,曹磊,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。