【技术实现步骤摘要】
基于拼音和BERT嵌入的中文语义匹配方法
本专利技术涉及,尤其涉及一种基于拼音和BERT嵌入的中文语义匹配方法。
技术介绍
语义匹配任务旨在对两个语句的语义进行建模并对它们之间的关系进行分类,是多种自然语言处理(NaturalLanguageProcessing,NLP)任务的基础。例如,在自然语言推理任务中,语义匹配用于判断从某一前提能否推断出某一假设;在问答任务和信息检索任务中,语义匹配用于计算输入语句和各个候选答案间的相关性并对所有候选答案进行排序;在机器阅读理解任务中,语义匹配用于根据一篇文章及相应问题在若干选项中选出正确的一项。随着深度学习的发展,从原始数据中自动抽取特征的深度语义匹配模型逐渐成为语义匹配任务的主流。目前深度语义匹配模型主要分为两种:孪生语义匹配模型和匹配聚合模型。孪生语义匹配模型基于一种孪生结构,采用两个参数共享的编码器将两个输入语句编码为各自对应的语义向量,随后根据这两个语义向量间的距离进行语义匹配。目前主要有基于卷积神经网络(ConvolutionalNeuralNetwork,CNN ...
【技术保护点】
1.基于拼音和BERT嵌入的中文语义匹配方法,其特征在于,所述中文语义匹配方法包括:/n构建包括数据预处理模块、BERT嵌入层模块、池化层模块和分类器模块的语义匹配模型,并对所述语义匹配模型进行训练,以利用训练好的所述语义匹配模型对待匹配语句进行中文语义匹配;/n其中,所述利用训练好的所述语义匹配模型对待匹配语句进行中文语义匹配的步骤包括:/n所述待匹配语句包括给定的两个中文语句,将该两个中文语句中的其中一个作为第一中文语句S_1,另一个作为第二中文语句S_2;所述数据预处理模块对第一中文语句和第二中文语句中的每个字进行拼音转换以及拼音切分,得到所述第一中文语句对应的第一拼 ...
【技术特征摘要】
1.基于拼音和BERT嵌入的中文语义匹配方法,其特征在于,所述中文语义匹配方法包括:
构建包括数据预处理模块、BERT嵌入层模块、池化层模块和分类器模块的语义匹配模型,并对所述语义匹配模型进行训练,以利用训练好的所述语义匹配模型对待匹配语句进行中文语义匹配;
其中,所述利用训练好的所述语义匹配模型对待匹配语句进行中文语义匹配的步骤包括:
所述待匹配语句包括给定的两个中文语句,将该两个中文语句中的其中一个作为第一中文语句S_1,另一个作为第二中文语句S_2;所述数据预处理模块对第一中文语句和第二中文语句中的每个字进行拼音转换以及拼音切分,得到所述第一中文语句对应的第一拼音序列P_1和所述第二中文语句对应的第二拼音序列P_2;
所述BERT嵌入层模块根据所述第一和第二拼音序列的上下文为其中每个拼音进行嵌入向量生成,得到嵌入向量序列E=(e_1,e_2,…,e_n);
所述池化层模块将所述嵌入向量序列聚合成用于分类的一维语义表征向量U;
所述分类器模块根据所述一维语义表征向量进行分类,得到对应所述第一中文语句和所述第二中文语句之间语义关系的预测结果Y∈{0,1}。
2.根据权利要求1所述的中文语义匹配方法,其特征在于,所述数据预处理模块对第一中文语句和第二中文语句中的每个字通过如下方式进行拼音转换:根据所述第一中文语句和第二...
【专利技术属性】
技术研发人员:谢金宝,战岭,范衠,黄书山,林木深,陈小威,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。