System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,具体地说是基于神经网络混合模型辨别事件相似度的方法及系统。
技术介绍
1、在自然语言处理领域,通过现有的词向量和其他模型,可以判断两段文本之间的相似程度,但是很难精准的判断两段文本说的是同一件事。尤其是在城市治理过程中,对于大量的事件,如何判重并批量处理事件成为很大的一个问题。
2、城市治理中如何判断事件相似性,是需要解决的技术问题。
技术实现思路
1、本专利技术的技术任务是针对以上不足,提供基于神经网络混合模型辨别事件相似度的方法及系统,来解决城市治理中如何判断事件相似性的技术问题。
2、第一方面,本专利技术一种基于神经网络混合模型辨别事件相似度的方法,包括如下步骤:
3、模型构建:基于中文分词器构建分词编码器,并基于神经网络模型构建事件相似度计算模型,所述分词编码器用于对输入的文本进行分词和编码处理,得到词向量,所述事件相似度计算模型用于以两个事件对应的词向量为输入、计算文本之间的词向量相似度,输出相似度评分;
4、样本构建:采集历史事件对应的事件文本,以每个历史事件对应的事件文本为输入、通过分词编码器对事件文本进行分词和编码处理,得到每个历史事件对应的词向量,以两个事件对应的词向量和相似度为样本数据,基于样本数据构建训练集;
5、模型训练:通过训练集对事件相似度计算模型进行模型训练,得到训练后事件相似度计算模型;
6、事件辨别:对于待辨别的两个事件,以每个事件对应的事件文本为输入、
7、作为优选,所述分词编码器包括中文分词模块、编码模块和微调模块;
8、所述中文分词模块用于对输入的文本进行分词,得到多个词;
9、所述编码模块用于以中文模块输出的词为输入,对每个词进行向量化,得到每个词对应的词向量;
10、所述微调模块用于对每个词向量进行定位计算,将词向量微调到新的高纬空间,得到新的词向量。
11、作为优选,所述微调模块用于编码模输出的词向量进行如下定位计算:
12、
13、其中,pe表示,pos表示,2i表示,dmodel表示。
14、作为优选,所述事件相似度计算模型包括注意力层和前馈网络层;
15、所述注意力层用于以文本对应的词向量为输入、对文本中词与词之间的关系进行预测,输出合并后的词向量,所述前馈网络层用于以两个文本对应的合并后词向量为输入、计算两个文本的词向量相似度。
16、作为优选,所述前馈神经网络层为基于长短期记忆网络构建的神经网络模型。
17、第二方面,本专利技术一种基于神经网络混合模型辨别事件相似度的系统,包括模型构建模块、样本构建模块、模型训练模块以及事件辨别模块;
18、模型构建模块用于执行如下:基于中文分词器构建分词编码器,并基于神经网络模型构建事件相似度计算模型,所述分词编码器用于对输入的文本进行分词和编码处理,得到词向量,所述事件相似度计算模型用于以两个事件对应的词向量为输入、计算文本之间的词向量相似度,输出相似度评分;
19、样本构建模块用于执行如下:采集历史事件对应的事件文本,以每个历史事件对应的事件文本为输入、通过分词编码器对事件文本进行分词和编码处理,得到每个历史事件对应的词向量,以两个事件对应的词向量和相似度为样本数据,基于样本数据构建训练集;
20、模型训练模块用于执行如下:通过训练集对事件相似度计算模型进行模型训练,得到训练后事件相似度计算模型;
21、事件辨别模块用于执行如下:对于待辨别的两个事件,以每个事件对应的事件文本为输入、通过分词编码器对事件文本进行分词和编码处理,得到每个事件对应的词向量,并以两个事件对应的词向量为输入、通过训练后事件相似度计算模型计算两个事件之间的词向量相似度,输出预测的相似度评分,基于相似度评分判断两个事件是否同一个事件。
22、作为优选,所述分词编码器包括中文分词模块、编码模块和微调模块;
23、所述中文分词模块用于对输入的文本进行分词,得到多个词;
24、所述编码模块用于以中文模块输出的词为输入,对每个词进行向量化,得到每个词对应的词向量;
25、所述微调模块用于对每个词向量进行定位计算,将词向量微调到新的高纬空间,得到新的词向量。
26、作为优选,所述微调模块用于编码模输出的词向量进行如下定位计算:
27、
28、其中,pe表示,pos表示,2i表示,dmodel表示。
29、作为优选,所述事件相似度计算模型包括注意力层和前馈网络层;
30、所述注意力层用于以文本对应的词向量为输入、对文本中词与词之间的关系进行预测,输出合并后的词向量,所述前馈网络层用于以两个文本对应的合并后词向量为输入、计算两个文本的词向量相似度。
31、作为优选,所述前馈神经网络层为基于长短期记忆网络构建的神经网络模型。
32、本专利技术的基于神经网络混合模型辨别事件相似度的方法及系统具有以下优点:城市治理中实现了事件的判重并解决了事件判重的批量处理问题。
本文档来自技高网...【技术保护点】
1.一种基于神经网络混合模型辨别事件相似度的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述分词编码器包括中文分词模块、编码模块和微调模块;
3.根据权利要求2所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述微调模块用于编码模输出的词向量进行如下定位计算:
4.根据权利要求1所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述事件相似度计算模型包括注意力层和前馈网络层;
5.根据权利要求4所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述前馈神经网络层为基于长短期记忆网络构建的神经网络模型。
6.一种基于神经网络混合模型辨别事件相似度的系统,其特征在于,包括模型构建模块、样本构建模块、模型训练模块以及事件辨别模块;
7.根据权利要求6所述的基于神经网络混合模型辨别事件相似度的系统,其特征在于,所述分词编码器包括中文分词模块、编码模块和微调模块;
8.根据权利要求7所述的基于神经网络混合模型
9.根据权利要求6所述的基于神经网络混合模型辨别事件相似度的系统,其特征在于,所述事件相似度计算模型包括注意力层和前馈网络层;
10.根据权利要求6所述的基于神经网络混合模型辨别事件相似度的系统,其特征在于,所述前馈神经网络层为基于长短期记忆网络构建的神经网络模型。
...【技术特征摘要】
1.一种基于神经网络混合模型辨别事件相似度的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述分词编码器包括中文分词模块、编码模块和微调模块;
3.根据权利要求2所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述微调模块用于编码模输出的词向量进行如下定位计算:
4.根据权利要求1所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述事件相似度计算模型包括注意力层和前馈网络层;
5.根据权利要求4所述的基于神经网络混合模型辨别事件相似度的方法,其特征在于,所述前馈神经网络层为基于长短期记忆网络构建的神经网络模型。
6.一种基于神经网...
【专利技术属性】
技术研发人员:崔增林,栾丽丽,于晓晨,迟钰沛,宁方刚,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。