The invention discloses a system and method for generating Chinese similar problems, which includes a preprocessing module for receiving a given problem and preprocessing. The preprocessing includes: participle, disuse words, word tagging for the obtained participle, and the naming entity recognition module for a given problem. Identification, identification of named entities; problem classification modules, used to classify given problems according to semantics; similar semantic problem generation modules, used to generate semantic similar problems for given problems; the similar semantic problem generation modules include rules based similar semantic problems generating sub modules and bases. Sub modules are generated from similar semantic problems in machine learning. The invention can effectively improve the matching degree and rationality of generated question questions and original questions.
【技术实现步骤摘要】
一种中文相似问题生成系统与方法
本专利技术涉及自然语言处理技术,尤其涉及一种中文相似问题生成系统与方法。
技术介绍
自然语言处理(naturallanguageprocessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机“理解”自然语言,自然语言处理的关键技术包括自然语句的分词、词性标注、命名实体识别、指代消解、句法依存分析等。问答技术(questionanswering),是信息检索技术的一种高级形式,它能用准确、简洁的自然语言回答用户的自然语言问题。自动问答系统能够自动分析问题并给出相应的候选答案,传统的自动问答系统主要由问题分析、信息检索和答案生成等模块构成。传统的自动问答主要是面向文本集合进行的,包括分析问题中的关键词,将关键词提交到搜索引擎,从文本库中检索相关文档,获取返回结果中确信度最高的前若干文档,再从中生成答案。但是随着语义网技术的发展与逐渐普及,知识图谱(knowledgegraph)、链接数据(linkeddata)等信息组织程度较高的结构化知识库兴起,例如DBpedia和Freebase,使得新式基于结构化知识库实现自动问答成为可能。在这种知识库的基础上进行自动问答,比传统基于文本的自动问答更为高效、准确。如果用户能够使用查询对知识库进行提问,无疑能够精准快速地获得答案。但是在实际运用自动问答技术时,大部分用户并不能够实现这种“专业”的提问方式,而往往只会使用人类自然语言的形式进行提问,因此基于自然语言问句的知识库问答具有重要价值。在基于知识库的自动问答过程中,用户输入中文自然语言问句后,传统方法对问 ...
【技术保护点】
1.一种中文相似问题生成系统,其特征在于,包括:预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;命名实体识别模块,用于对给定的问题进行识别,得到识别命名实体;问题分类模块,用于对给定的问题按照语义进行分类,所述分类类别包括:描述、人物、地点、时间、数字、实体、未知;相似语义问题生成模块,用于针对给定的问题,生成语义相似的问题;所述相似语义问题生成模块主要包含两个子模块,即:基于规则的相似语义问题生成子模块及基于机器学习的相似语义问题生成子模块;所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行同义词扩展替换,然后对扩展替换后的同义词进行重新组合,生成候选问题;所述基于机器学习的相似语义问题生成子模块,用于通过循环序列神经网络方法建模,利用训练数据构建模型进行问题生成。
【技术特征摘要】
1.一种中文相似问题生成系统,其特征在于,包括:预处理模块,用于接收给定的问题,并进行预处理,所述预处理包括:分词、去停用词、对得到的分词进行词性标注、给定问句进行句法依存关系分析;命名实体识别模块,用于对给定的问题进行识别,得到识别命名实体;问题分类模块,用于对给定的问题按照语义进行分类,所述分类类别包括:描述、人物、地点、时间、数字、实体、未知;相似语义问题生成模块,用于针对给定的问题,生成语义相似的问题;所述相似语义问题生成模块主要包含两个子模块,即:基于规则的相似语义问题生成子模块及基于机器学习的相似语义问题生成子模块;所述基于规则的相似语义问题生成子模块,用于根据词性标注的分词并以命名实体识别模块的识别结果和问题分类模块的分类结果为辅助进行同义词扩展替换,然后对扩展替换后的同义词进行重新组合,生成候选问题;所述基于机器学习的相似语义问题生成子模块,用于通过循环序列神经网络方法建模,利用训练数据构建模型进行问题生成。2.根据权利要求1所述的中文相似问题生成系统,其特征在于,所述命名实体识别模块得到多个初步识别命名实体;将所述多个初步识别命名实体组成查询词条在属性数据库中进行搜索,得到多个候选完整命名实体;分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体。3.根据权利要求1所述的中文相似问题生成系统,其特征在于,所述相似语义问题生成模块还用于对生成的语义相似的问句进行筛选排序,根据需要保留排名前列的问题。4.根据权利要求3所述的中文相似问题生成系统,其特征在于,所述相似语义问题生成模块对基于规则的相似语义问题生成子模块生成的问题排序的依据如下:对基于规则的相似语义问题生成子模块生成的问题,采用概率模型以评估句子通顺程度,具体如下:对生成句子中每个替换词计算其前后项生成概率(考虑2-gram语言模型),假设原句子为Sold,新生成句子为Tnew,则计算公式如下:P(Sold→Tnew)=P(s0s1…si…sn→t0t1…ti…tn)=P(t0)P(t0|s0)P(t1|s1)P(t1|t0)…P(ti-1|si-1)P(ti-1|ti)P(ti+1|ti)P(ti|si)…P(tn|tn-1)其中,n表示句子长度;P(ti|si)表示新句Tnew中第i个词项由原句Sold中第i个词项生成的概率;P(ti+1|ti)表示新句Tnew中第i+1个词项由第i个词项生成概率,考虑到Sold→Tnew变换过程中只有替换进行同义词替换位置发生词项改变,因此其余位置P(ti|si)=1,因此上式可简化为如下形式:P(Sold→Tnew)=ΠmP(ti|si)P(ti|ti-1)P(ti+1|ti)其中,m为Sold中被替换的同义词位置个数,为避免连乘引发的精度缺失,考虑对等式两遍取log,为方便表示,令L(Sold→Tnew)≡logP(Sold→Tnew),则上式可转化为:L(Sold→Tnew)=∑m[logP(ti|si)+logP(ti+1|ti)+logP(ti|ti-1)]其中,P(ti|si)由同义词表给出其概率值,P(ti|ti-1)计算公式如下:其中,N(ti,ti-1)表示词项ti,ti-1在语料库中共现次数;N(ti-1)表示词项ti-1在语料库中出现个数;c为平滑因子,通常c为|V|,即词表大小。5.根据权利要求1所述的中文相似问题生成系统,其特征在于,所述基于机器学习的相似语义问题生成子模块,用于利用机器学习方法对问题建模,利用训练数据构建模型进行问题生成的过程如下:1)获得中文问句作为训练集;2)采...
【专利技术属性】
技术研发人员:孙昌勋,许志强,王凯,曾国卿,
申请(专利权)人:北京容联易通信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。