句型识别方法技术

技术编号：25186188 阅读：97 留言：0更新日期：2020-08-07 21:13

本发明专利技术公开了一种句型识别方法，通过获取训练数据集，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据余弦相似度确定待识别语句的类型，使待识别语句的类型以待识别语句所包括的目标词为依据，可以提高识别结果的准确性，从而提高识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
句型识别方法
本专利技术涉及信号处理
，尤其涉及一种句型识别方法和存储介质。
技术介绍
问答系统(QuestionAnsweringSystem，QA)是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题。一个问答系统牵涉到问和答，那么从海量的语句中识别出问句是个很迫切的需求。只有识别出C端(客户端)的问答需求，才能更好的针对问题进行归纳整理答案，更好的服务客户。传统方案往往通过分析标点等句型特征进行句型识别，虽然在一定程度上可以响应句型识别需求，然而往往存在识别精度低的问题。
技术实现思路
针对以上问题，本专利技术提出一种句型识别方法和存储介质。为实现本专利技术的目的，提供一种句型识别方法，包括如下步骤：S10，获取训练数据集；所述训练数据集包括多个标注句型的问句以及多个标注句型的非问句；S30，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列；所述第一词向量序列用于计算各个词语的第一词向量，第一词向量表征相应词语属于问句的概率，所述第二词向量序列用于计算各个词语的第二词向量，第二词向量表征相应词语属于非问句的概率；S40，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2；S50，计算问句词向量...

【技术保护点】
1.一种句型识别方法，其特征在于，包括如下步骤：/nS10，获取训练数据集；所述训练数据集包括多个标注句型的问句以及多个标注句型的非问句；/nS30，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列；所述第一词向量序列用于计算各个词语的第一词向量，第一词向量表征相应词语属于问句的概率，所述第二词向量序列用于计算各个词语的第二词向量，第二词向量表征相应词语属于非问句的概率；/nS40，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2；/nS50，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型。/n

【技术特征摘要】
1.一种句型识别方法，其特征在于，包括如下步骤：
S10，获取训练数据集；所述训练数据集包括多个标注句型的问句以及多个标注句型的非问句；
S30，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列；所述第一词向量序列用于计算各个词语的第一词向量，第一词向量表征相应词语属于问句的概率，所述第二词向量序列用于计算各个词语的第二词向量，第二词向量表征相应词语属于非问句的概率；
S40，获取待识别语句中的各个词，得到多个目标词，在第一词向量序列中查找各个目标词的第一词向量，依据各个第一词向量确定问句词向量QV1，在第二词向量序列中查找各个目标词的第二词向量，依据各个第二词向量确定非问句词向量QV2；
S50，计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型。

2.根据权利要求1所述的句型识别方法，其特征在于，在一个实施方式中，所述计算问句词向量QV1和非问句词向量QV2之间的余弦相似度，根据所述余弦相似度确定待识别语句的类型包括：
分别将问句词向量QV1和非问句词向量QV2转换为设定长度的向量，计算转换后的两个向量的余弦相似度；
当余弦相似度大于设定阈值时，判定待识别语句为非问句，当余弦相似度小于设定阈值时，判定待识别语句为问句。

3.根据权利要求1所述的句型识别方法，其特征在于，在一个实施方式中，在对训练数据集进行预处理后，根据预处理后的训练数据集确定问句对应的第一词向量序列以及非问句对应的第二词向量序列之前，还包括：
S20，对所述训练数据集进行预处理，以去除所述训练数据集中各个语句中的噪声词。

4.根据权利要求3所述的句型识别方法，其特征在于，在一个实施方式中，所述对所述训练数据集进行预处理包括：
获取训练数据集中语句集合C＝{C1，C2，C3，...，Cn}和标签集合L＝{L1，L2，L3，...，Ln}；Ci表示第i个语句，i＝1，2，......，n，n表示训练数据集中的语句个数；
将每个语句进行分词，去除各个语句中的停用词；
对去除停用词后的各个语句进行词过滤，得到过滤结果；
去除过滤结果所包括的各个语句中的重复词，根据标签集合L＝{L1，L2，L3，...，Ln}将语句集合C＝{C1，C2，C3，...，Cn}划分为问句集Q1和非问句集Q2。

5.根据权利要求4所述的句型识别方法，其特征在于，在一个实施方式中，所述对去除停用词后的各个语句进行词过滤包括：
获取各个词语在各个语句中的出现次数，定义最小出现次数为min和最大出现次数为max；
剔除出现次数在区间(min，max)以外的词语。

6.根据权利要求4所述的句型识别方法，其特征在于，在一个实施方式中，所述根据预处理后的训练数据集确定问句对应的第...

【专利技术属性】
技术研发人员：王冲，崇传兵，
申请(专利权)人：江苏艾佳家居用品有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人