System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模板匹配式水利领域知识问答模型制造技术_技高网

一种模板匹配式水利领域知识问答模型制造技术

技术编号:40061727 阅读:4 留言:0更新日期:2024-01-16 22:47
本发明专利技术提供一种模板匹配式水利领域知识问答模型,包括用于接收用户输入的问题请求并输出,且问题请求以自然语言形式呈现的问题获取模块、用于接收由所述问题获取模块输出的问题请求,并对问题请求进行语义分析,得到并输出与问题请求对应的问题模板的问题分析模块、用于接收由所述问题分析模块输出的问题模板,并在知识图谱中检索,得到并输出与问题模板对应的答案的知识图谱查询模块,以及用于接收由所述知识图谱查询模块输出的答案,并对答案进行处理,最终将处理后的答案反馈给用户的答案生成模块,本发明专利技术能够准确识别每一个字符,有效增加自然语言解析的精确度,准确识别问题意图,能够有效去除噪音,消除歧义。

【技术实现步骤摘要】

本专利技术涉及水利知识问答,尤其涉及一种模板匹配式水利领域知识问答模型


技术介绍

1、在水利领域知识问答模型技术中,通过搜集部分水利类网站论坛的常见问题,对大量的问题进行分析发现,提问具有明显的领域特征,且存在以下问题。

2、(1)水利特定领域,涉及的水利专业词较多,如“闸站”“超警戒水位”等,以上专业词,需要专业的水利领域字典才能识别。

3、(2)水利领域中常出现地名、河名,如“双美桥”“张家浜”“长山闸”等。这些专有名词没有语义,造成难以识别问句意图的问题。

4、(3)会出现一些口语化的表达,如“在哪里”“请问一下”等,这会对问句的处理产生噪音。

5、(4)多词同义,即词同义不同的情况,会出现漏检现象。

6、针对以上问题,现有技术提出一种句子相似度算法,该算法结合水利领域的特殊性,既考虑句子基于词信息和句法信息的表层相似度,又结合hownet进行语法语义层面的句子相似度计算,综合考虑关键词、句长、语义等多重信息,提出一种融合算法,有效提升句子语义识别的准确度。

7、句子相似度算法具体计算步骤如下:

8、步骤1:问句预处理。结合水利问答系统中涉及的问句特征,对问句进行口语词过滤,去疑问词、停用词、客气词等处理。

9、步骤2:关键词提取。提取关键词就是分词的过程,在英文中,单词之间是以空格作为分隔符的,而中文词与词之间没有明显的分隔符,只有段与段之间、句与句之间存在简单的分界,相比起来,中文分词更加复杂。

10、分词算法大概分为三类:基于字符串匹配的分词算法、基于理解的分词方法和基于统计的分词方法。本方案使用基于字符串匹配的分词算法,该方法又叫机械分词方法,它是按照一定的策略将待分析的汉字字符串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。

11、步骤3:建立专有名词词典。在水利领域的问答系统中,会出现很多专有名词,专有名词是很难识别的,无疑增加分词的难度。故建立一个水利专业分词词典,该词典根据gb2312码的特点,将词汇的首字用二维数组保存,一共6763个单元,除首字以外的词汇剩余部分,有可能是一个或者多个,用hashtable保存。在词典中建立水利专有名词与指代对象的一对多关系,自定义一个数据结构对这种对应关系进行保存,当该词汇识别为专有名词时,立即转化为其指代对象。这时该数据结构中保存的就是相应的指代对象。

12、步骤4:表层相似度计算。考虑水利领域特征的同时,分别从组成句子的词及词形上、句子结构、词序等方面计算表层相似度。

13、词性相似度表达式:

14、

15、其中,wordpro(q1)和wordpro(q2)分别表示句子q1与q2中关键词的权值,samewordpro(q1,q2)表示句子q1和q2中相同关键词的权值。

16、分词完成后得到关键词集,从词汇属性方面,可能存在水利专业词、专有名称、关键词和口语表达词,比如,“圩区水面率大于0.2的有哪些”,很显然,水利专业词“圩区”“水面率”与比较词“大于”相比,承载更多的信息量,因此,水利专业词将被赋予更大的权值。从词性方面,这些词当中可能包含有名词、动词、形容词、数词等多种词形,而经过大量的实践我们发现,名词和动词占整个句子的信息量比重最大,即句子所表达的中心信息是围绕名词和动词来展开的,且名词比动词更为重要。所以,从词性和词汇属性两方面,对分词后的关键词进行加权,对不同的词性赋予对应的权值,增加准确度。

17、另外,还有三种基于规则的常见算法,该方法关注词的形态变化等信息,如关键词的顺序、关键词之间的距离以及句子的长度等,通过词间的相似度的不同组合来确定句子之间的相似度。

18、句长相似度:

19、其中,len(q1)和len(q2)分别表示两个句子的关键词个数。句长在一定程度上反映两个句子的相似程度,句子长度相差越小,相似的程度越大。

20、词序相似度:

21、其中,rev(q1,q2)表示句子q1中的关键词在q2中位置的自然数序列的逆序数,maxrev(q1,q2)表示q1和q2中相同关键词的个数的自然数序列的最大逆序数。最大逆序数为maxrev(q1,q2)=n(n-1)/2。

22、距离相似度:

23、其中,samedis(qi)表示q1和q2中相同关键词在qi中的距离,若关键词重复出现,则以最大距离为准;dis(qi)(i=1,2)表示句子关键词中最左及最右关键词之间的距离,若关键词重复出现,则以最小距离为准。

24、结合以上三种基于规则的表层相似度,即句长相似度、词序相似度和距离相似度,以及对关键词词性进行考虑的词性相似度,将四种相似度进行线性融合,得到表层相似度为

25、synsim=λ1lensim(q1,q2)+λ2ordsim(q1,q2)+λ3dissim(q1,q2)+λ4wordprosim(q1,q2)公式(5)

26、其中:λ1+λ2+λ3+λ4=1,λ1≥0.5≥λ2≥λ3≥λ4。

27、步骤5:语义相似度计算。在计算语义相似度时,采用知网(hownet)作为语义知识资源。hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。要计算句子的语义相似度,先计算词语的语义相似度,采用知网提供的计算工具计算词语之间的相似度;然后,对问句进行分析,计算句子与问答系统中候选问句的相似度。

28、设句子q1含有m个关键词(k11,k12,k13,…,k1m),句子q2含有n个关键词(k21,k22,k23,…,k2n)。

29、计算词汇语义相似度。从q1中选出一个关键词分别与q2中的n个关键词计算词汇相似度,q1中关键词循环完为止。得到词汇语义相似度矩阵:

30、

31、计算第一个关键词集与第二个词集的关键词的平均最大相似度。

32、

33、计算第二个关键词集与第一个词集的关键词的平均最大相似度;

34、

35、计算公式(7)和(8)的结果,求平均值,得到句子语义相似度。

36、

37、步骤6:算法融合。综合考虑多重信息,包括句子表层相似度和句子语义相似度,并针对水利领域特征,最后,定义两个句子的相似度为:

38、sim=(1-η)synsim+ηsemsim,0≤η≤13

39、使用“嘉兴流域500问”作为测试问题集进行实验验证。经过大量测试,确定算法中的参数值,其中λ1=0.4,λ2=0.2,λ3=0.3,λ4=0.1,η=0.7,同时,确定阈值为0.65,当计算得到的句子相似度大于等于这个阈值时,就说明最大相似度对应的问句和用户的目标问句是同一个问句;反之,与目标句子不具有相似性。

<本文档来自技高网...

【技术保护点】

1.一种模板匹配式水利领域知识问答模型,其特征在于,包括:

2.根据权利要求1所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述问题分析模块包括:

3.根据权利要求2所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述主题实体识别模块和问题分类模块以BERT预训练模型作为嵌入模型,通过所述BERT预训练模型识别出问题请求的主题实体和属性信息,并判断出问题请求的类型。

4.根据权利要求3所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述问题分类模块采用朴素贝叶斯分类模型对所述问题请求进行分类处理。

5.根据权利要求2所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述主题实体识别模块基于构建的实体词典和属性词典进行识别,通过结合所述实体词典和属性词典识别出问题请求的主语实体和属性信息。

6.根据权利要求5所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述模板匹配模块包括基于规则的匹配模块和基于TextCNN网络的匹配模型;

7.根据权利要求6所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述问题分析模块还包括:

8.根据权利要求1所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述知识图谱查询模块包括基于Neo4j图数据库的知识图谱和Cypher查询引擎,以通过所述Cypher查询引擎在基于Neo4j图数据库的知识图谱中检索与问题请求对应的答案。

9.根据权利要求1所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述问题分析模块还用于:

10.根据权利要求8所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述答案生成模块对答案的处理包括对Neo4j图数据库中检索到的细粒度信息进行字符串拼接、去重、排序和融合,并以自然语言短文本形式返回给用户。

...

【技术特征摘要】

1.一种模板匹配式水利领域知识问答模型,其特征在于,包括:

2.根据权利要求1所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述问题分析模块包括:

3.根据权利要求2所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述主题实体识别模块和问题分类模块以bert预训练模型作为嵌入模型,通过所述bert预训练模型识别出问题请求的主题实体和属性信息,并判断出问题请求的类型。

4.根据权利要求3所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述问题分类模块采用朴素贝叶斯分类模型对所述问题请求进行分类处理。

5.根据权利要求2所述的一种模板匹配式水利领域知识问答模型,其特征在于,所述主题实体识别模块基于构建的实体词典和属性词典进行识别,通过结合所述实体词典和属性词典识别出问题请求的主语实体和属性信息。

6.根据权利要求5所述的一种模板匹配...

【专利技术属性】
技术研发人员:凌飞
申请(专利权)人:上海协济科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1