【技术实现步骤摘要】
语句处理方法、装置及存储介质
本专利技术涉及自然语言处理技术,尤其涉及一种语句处理方法、装置及存储介质。
技术介绍
随着自然语言处理(NaturalLanguageProcessing,NLP)技术的快速发展,越来越多的设备(例如智能音箱和智能手机)上搭载了NLP技术。设备的NLP能力可以通过其对自然语句的响应结果进行评估,例如播放“播放我喜欢的电影”的自然语句,对响应结果设置各种评测项以评估终端的NLP能力。但是,一个评测项仅能评测设备在一个领域的NLP能力,无法评测设备在不同的领域的NLP能力,设备的NLP能力需要结合其对音乐领域、问答领域、闲聊领域等不同领域(也即是维度)的评测项来进行评估。但是,相关技术缺乏对语句集合中海量的语句进行准确分类的方案。
技术实现思路
本专利技术实施例提供一种语句处理方法、装置及存储介质,能够准确地对语句集合中的语句进行维度的划分。本专利技术实施例的技术方案是这样实现的:本专利技术实施例提供一种语句处理方法,包括:将语句集合中各个语句映射为语义空 ...
【技术保护点】
1.一种语句处理方法,其特征在于,所述方法包括:/n将语句集合中各个语句映射为语义空间中的节点;/n遍历所述语义空间中任意的两个节点并连接为边,将各边连接的两个节点对应的语句之间的语义距离标记为各对应边的权重,以形成节点关系图;/n将所述节点关系图中各个边的权重转换为对应边的一端节点转移到另一端节点的概率;/n基于所述节点关系图中各个边对应的概率,生成用于表示在所述节点关系图中随机转移的至少两个随机序列;/n将各个所述随机序列中节点对应的语句,划分至所述随机序列所对应维度的语句子集合中。/n
【技术特征摘要】
1.一种语句处理方法,其特征在于,所述方法包括:
将语句集合中各个语句映射为语义空间中的节点;
遍历所述语义空间中任意的两个节点并连接为边,将各边连接的两个节点对应的语句之间的语义距离标记为各对应边的权重,以形成节点关系图;
将所述节点关系图中各个边的权重转换为对应边的一端节点转移到另一端节点的概率;
基于所述节点关系图中各个边对应的概率,生成用于表示在所述节点关系图中随机转移的至少两个随机序列;
将各个所述随机序列中节点对应的语句,划分至所述随机序列所对应维度的语句子集合中。
2.根据权利要求1所述的方法,其特征在于,形成节点关系图之前,所述方法还包括:
对所述语句集合中各个语句进行分词,得到所述各个语句所包括的词;
分别对所述各个语句所包括的词对应的词向量进行组合,得到所述各个语句一一对应的句子向量;
遍历任意的两个句子向量,以将所述两个句子向量之间的距离确定为对应语句之间的语义距离。
3.根据权利要求1所述的方法,其特征在于,形成节点关系图之前,所述方法还包括:
从所述语句集合的各个语句中提取特征向量;
分别对所述各个语句的特征向量进行降维,得到所述各个语句一一对应的句子向量;
遍历任意的两个句子向量,以将所述两个句子向量之间的距离确定为对应语句之间的语义距离。
4.根据权利要求1所述的方法,其特征在于,将所述节点关系图中各个边的权重转换为对应边的一端节点转移到另一端节点的概率之前,所述方法还包括:
遍历所述语义空间中的节点,并将每次所遍历的节点作为参考节点,以并执行以下处理:
将所述节点关系图中连接所述参考节点的边的权重相加,得到权重和;
遍历所述节点关系图中连接所述参考节点的边,并将所遍历的边的权重与所述权重和之间的比值,确定为所遍历的边的更新后的权重;
基于连接所述参考节点的边的更新后的权重,确定所述参考节点的参考权重;
删除所述节点关系图中更新后的权重大于所述参考节点的参考权重的边。
5.根据权利要求4所述的方法,其特征在于,所述基于连接所述参考节点的边的更新后的权重,确定所述参考节点的参考权重,包括:
确定连接所述参考节点的边的更新后的权重的权重均值;
将设定的因子与所述参考节点的权重均值进行乘法运算,得到所述参考节点的参考权重。
6.根据权利要求4所述的方法,其特征在于,在删除所述节点关系图中更新后的权重大于所述参考节点的参考权重的边之后,所述方法还包括:
确定所述节点关系图中的分量,所述分量中任意两个节点能够通过边相互连通;
以所述分量为界限对所述节点关系图进行划分。
7.根据权利要求1所述的方法,其特征在于,所述将所述节点关系图中...
【专利技术属性】
技术研发人员:周磊,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。