一种自动提取中文问答语句焦点的系统技术方案

技术编号:20221765 阅读:31 留言:0更新日期:2019-01-28 20:16
一种自动提取中文问答语句焦点的系统,该方法包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块,该方法基于双向循环神经网络模型提取问题焦点,可以同时提取问句中的多个焦点,且能够区分多个焦点的不同语义;能够自动学习出不同问句的句型模式以及每种句型模型中焦点的位置,无需专家设计提取规则;能够适应未知的新焦点词,准确提取未知焦点词。该方法不但提取焦点正确率高,而且还具有很好的泛化能力,能够大大减少训练语料数量。该方法对于提高问答系统性能有重要作用。

【技术实现步骤摘要】
一种自动提取中文问答语句焦点的系统
本专利技术涉及智能信息处理和计算机
,特别涉及一种自动提取中文问答语句焦点的系统。
技术介绍
自动问答是当前人工智能和自然语言处理技术应用的一个重点。自动问答系统都是以自然语言文本为输入,然后系统针对输入文本输出相应的答案。自动问答系统中的一个关键技术就是分析提取问句的焦点词。而自然语言文本灵活多变,不规范性、模糊性很强。尤其是对于中文,这些特性尤为突出。不同问题涉及的焦点也不一样。所以使用人工语法规则来提取焦点的策略难以实用。设计语法规则不仅需要人类专家花费大量的精力,而且根据语法规则提取问题焦点的方法正确率低,泛化能力差。使用统计机器学习方法来提取焦点,则一方面需要大量的训练语料数据才能获得较准确词语分布概率;另一方面,统计方法难以处理新出现的、未知的词语。传统焦点词提取算法准确率差,不能满足问答系统的要求。
技术实现思路
为了克服上述现有技术的不足,本专利技术的目的在于提供一种自动提取中文问答语句焦点的系统,不仅准确率高,而且具有很好的泛化能力。为了实现上述目的,本专利技术采用的技术方案是:一种自动提取中文问答语句焦点的系统系统,包括分词和本文档来自技高网...

【技术保护点】
1.一种自动提取中文问答语句焦点的系统,其特征在于,包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块;1)分词和词向量模块将问句切分成一个词序列,并生成所有词的词向量;2)焦点信息模块确定每一类问题的焦点信息,标记训练数据中每个问句中的焦点位置,生成清洗后的训练数据;3)焦点训练模块根据焦点信息模块生成的清洗后训练数据以及分词和词向量模块生成的词向量训练多焦点提取网络模型,学习记忆不同问句的句型模式以及每种句型模式中的焦点位置,最后生成多焦点提取网络模型;4)焦点提取模块将一个问句输入分词和词向量模块得到该问句中每个词的词向量,然后依次将词向量输入多焦点提取网络模型中,最终得到该...

【技术特征摘要】
1.一种自动提取中文问答语句焦点的系统,其特征在于,包括分词和词向量模块、焦点信息模块、焦点训练模块、焦点提取模块;1)分词和词向量模块将问句切分成一个词序列,并生成所有词的词向量;2)焦点信息模块确定每一类问题的焦点信息,标记训练数据中每个问句中的焦点位置,生成清洗后的训练数据;3)焦点训练模块根据焦点信息模块生成的清洗后训练数据以及分词和词向量模块生成的词向量训练多焦点提取网络模型,学习记忆不同问句的句型模式以及每种句型模式中的焦点位置,最后生成多焦点提取网络模型;4)焦点提取模块将一个问句输入分词和词向量模块得到该问句中每个词的词向量,然后依次将词向量输入多焦点提取网络模型中,最终得到该问句焦点所在的位置。2.根据权利要求1所述的一种自动提取中文问答语句焦点的系统,其特征在于:所述的步骤1中对于输入问句可以使用中文分词工具(例如jieba、NLPIR等)将其切分成词序列。然后再利用word2vec等工具训练生成每个词的词向量。词向量也可以在训练模型的过程中自动生成;所述的步骤2中:首先对每一类问题人工确定该类问题所关注的焦点数目和具体焦点,例如对于行李类问题,其关注焦点数目只有1个,就是要携带的物品;对于航班时刻类问题,其关注的焦点数目有2个,一个是出发地点,一个是目的地点,然后人工标记训练数据中每一个问句的焦点词位置,并生成该该问句的输出向量,即,该问句中焦点词所对应位置的期望输出值标记为1,其余词所对应位置的期望输出值设置为0,如果该问句所对应问题有多个焦点,则每一个焦点生成一个相应的输出向量。最后,由一个输入问句和对应的输出向量就构成了一条具体的清洗后的训练数据。3.根据权利要求1所述的一种自动提取中文问答语句焦点的系统,其特征在于,所述的多焦点提取网络模型使用神经网络自动提取中文问答语句的焦点,该网络中输入层与隐层之间全连接,隐层与输出层之间全连接,隐层神经元之间在时间上前后相互连接,所有神经元激活函数均使sigmoid函数,包括x、t、h、o四个数值,其中,xt表示句子中第t个词的词向量,ht表示当输入第t个词时正向计算的隐层值,ht'表示当输入第t个词时反向计算的...

【专利技术属性】
技术研发人员:鲍军鹏田孟何晖
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1