基于依存句法树的中文问题的关键词抽取方法技术

技术编号:29402793 阅读:11 留言:0更新日期:2021-07-23 22:40
本发明专利技术公开了一种基于依存句法树的中文问题的关键词抽取方法。本发明专利技术在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树;同时设定新的关键词组合规则,将词与关系节点根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重;关系节点包括父节点、子节点、兄弟节点。同时,本发明专利技术还采用了全新规则的停用词表,去除了绝大部分无效关键词,有助于提高检索效率。本发明专利技术采用关键词的优先级排序优化检索的效率,先去检索优先级高的关键词能够更快地匹配到问题所对应的答案,使得问答系统的交互性得到了一定的提升。

【技术实现步骤摘要】
基于依存句法树的中文问题的关键词抽取方法
:本专利技术属于数据检索领域,针对校园问答系统主要提出了一种基于依存句法树的中文问题的关键词抽取方法。
技术介绍
:问答系统是指使用自然语言对用户输入的问句做出相应回复的智能系统,系统根据用户所输入的问题检索标准问答库,然后自动返回相应的回答。所以,系统对问题的检索结果是否准确直接影响到该用户对问答系统的使用体验。现有技术中检索问题相应回答时,通常先将问题提取关键词集,然后再使用词集进行录入检索,若关键词抽取不准确,将直接影响到检索的结果是否准确。目前关键词提取为根据自定义词库以及常用词库进行分词选定,存在不够精准,自定义工作量大,通用性差的技术问题。比如,对于给定的一个领域的问题,该领域的自定义词库需要人工添加,如果将该算法引入到新的领域当中,需重新添加词库,灵活性较差。另外,一些问题的关键词较冗余,对正确答案的定位并无帮助,极大地降低的检索的效率。
技术实现思路
:本专利技术旨在解决问题关键词提取中冗余较多,人工干预较大的问题,增强关键词提取算法在不同领域下的通用性,尽可能地减少自定义词库的工作量,并提升答案定位的准确率和效率。本专利技术在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树。在此基础上,我们设定了新的关键词组合规则,将词与关系节点(父节点,子节点,兄弟节点)根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重。同时,本专利技术还采用了全新规则的停用词表,去除了绝大部分无效关键词,有助于提高检索效率。基于依存句法树的中文问题的关键词抽取方法,具体实现步骤如下:步骤1:对文本数据进行预处理:主要指对所得文本数据集进行清洗和结构化整理;步骤2:基于依存句法构建依存句法关系树步骤3:设定特殊规则并检索关键词步骤4:根据关键词权重对关键词集合中的所有关键词进行优先级排序;进一步的,步骤1所述的数据预处理主要包含以下步骤:1-1.数据清洗:删除文本中的非法字符、空格、换行符;1-2.删除问候语和疑问词,包括“你好”,“请问”;1-3.采用textrank中的关键句抽取,对多个句子组成的问题文本做一个缩句操作,抽取的关键句数量为N,N=int(原句子数量*60%)。进一步的,步骤2所述的基于依存句法构建依存句法关系树,具体实现如下:2-1.采用hanlp库对预处理后获得的关键句进行依存句法分析得到该关键句对应的词列表,记为qi,其中,i=1,2,…,m,m为关键句中词个数;将词列表中的每个词进行属性标注:词、词序号、词性、父节点、与父节点的关系,将标注的词属性作为该词在树中的结点属性,并将结点属性存放在对应的数据结构中;2-2.构建依存句法关系树:将词列表中的每个词作为一个节点,标注每个节点的父节点和子节点集合,以及每个节点的层数,所述的层数即每个节点到根节点的距离;2-3.根据节点所在层,将节点赋予相对应的权重,具体权重计算如下:其中C为依存句法树的总层数,Ns为该节点所在层数。进一步的,步骤3所述的设定特殊规则并检索关键词,具体实现如下:3-1.设定关键词构成规则;3-2.根据步骤3-1设定规则,深度优先搜索关键词;3-3根据步骤3-1设定规则,广度优先搜索关键词组合。进一步的,步骤3-1所述的设定关键词构成规则,具体实现如下:3-1-1规则A:构成关键词的所有词节点的词性Npos必须满足实义词性要求,即“动词v,名词n,形容词adj和学科词汇pro”;即Npos∈{n,v,adj,pro}(2)3-1-2规则B:词与下一个词的连接合并,需参考词与词之间的关系;确定三个构成关键词的词关系Nr分别是主谓关系,定中关系和动宾关系,即:Nr∈{主谓关系,定中关系,动宾关系}(3)3-1-3规则C:设定冗余词库,若词节点Nword在冗余词库Wredundant内,则不能与其他节点合并关键词,即:其中,冗余词库Wredundant中的词满足规则A要求,但仍不具有实际意义。进一步的,所述的深度优先搜索关键词,具体实现如下:3-2-1.从根结点开始,如果词节点符合规则A和规则C,则深度搜索该词节点下的子节点,即如果节点α与他的子节点β的中文语法关系符合规则B,则查找β的子节点是否有关系满足规则B;若有,则继续查找子节点的子节;,若无,则返回当前已搜索到的节点链表;3-2-2根据已经查到的节点链表,按中文语法规则合并来组成关键词,所述的中文语法规则包括如下:规则一:对于定中关系来说:子节点在前,父节点在后,即:Key=N+Nf(5)其中,Nf代表父节点的词,N代表子节点的词,Nf与N构成定中关系;规则二:对于主谓关系和动宾关系来说:父节点在后,子节点在前,即:Key=Nf+N(6)3-2-3多重关系组合如果节点链表中存在定中关系,则将所有“定中关系”先进行优先合并,再将合并后的词与主语或者动词进行合并。进一步的,根据广度优先搜索关键词组合,具体实现如下:提取节点与父节点关系不是定中关系的节点,查询他的子节点是否有两个或两个以上与该节点有定中关系,若有,则按文章中出现的顺序依次合并。进一步的,步骤4具体实现如下:4-1.将提取出来的关键词进行关键词权重的计算:4-1-1.提取组成关键词的节点的权重;4-1-2.对相连的节点的权重进行相加,同层的节点权重进行相乘;4-2.根据关键词权重对关键词集合中的所有关键词进行排序,得到最终结果。本专利技术有益效果如下:1)本专利技术在分词基础上,将相关联的词语进行了组合成新的关键词,对于某个特定领域或者特定问题来说,一些特定的修饰词与中心语也能组合在一起作为关键词进行检索,减少了自定义词库的词数,保证了模型的一个通用性,提升了问题定位的准确性。2)采用关键词的优先级排序优化检索的效率,先去检索优先级高的关键词能够更快地匹配到问题所对应的答案,使得问答系统的交互性得到了一定的提升。附图说明:图1为关键词抽取方法流程图图2为深度优先搜索流程图图3为广度优先搜索流程图具体实施方式:下面结合附图和实施例对本专利技术作进一步说明。如图1-3所示,基于依存句法树的中文问题的关键词抽取方法,具体实现步骤如下:步骤1:对文本数据进行预处理:主要指对所得文本数据集进行清洗和结构化整理,以便后续用于模型的输入,数据预处理主要包含以下步骤:1-1.数据清洗:删除文本中的非法字符、空格、换行符等。1-2.删除问候语和疑问词,如“你好”,“请问”等。1-3.采用textrank中的关键句抽取,对多个句子组成的问题文本做一个缩句操作,抽取的关键句数量为N,N=int(原句子数量*60%)。<本文档来自技高网...

【技术保护点】
1.基于依存句法树的中文问题的关键词抽取方法,其特征在于在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树;同时设定新的关键词组合规则,将词与关系节点根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重;关系节点包括父节点、子节点、兄弟节点。/n

【技术特征摘要】
1.基于依存句法树的中文问题的关键词抽取方法,其特征在于在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树;同时设定新的关键词组合规则,将词与关系节点根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重;关系节点包括父节点、子节点、兄弟节点。


2.根据权利要求1所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于具体实现步骤如下:
步骤1:对文本数据进行预处理:主要指对所得文本数据集进行清洗和结构化整理;
步骤2:基于依存句法构建依存句法关系树
步骤3:设定特殊规则并检索关键词
步骤4:根据关键词权重对关键词集合中的所有关键词进行优先级排序;
步骤1所述的数据预处理主要包含以下步骤:
1-1.数据清洗:删除文本中的非法字符、空格、换行符;
1-2.删除问候语和疑问词,包括“你好”,“请问”;
1-3.采用textrank中的关键句抽取,对多个句子组成的问题文本做一个缩句操作,抽取的关键句数量为N,N=int(原句子数量*60%)。


3.根据权利要求1或2所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于步骤2所述的基于依存句法构建依存句法关系树,具体实现如下:
2-1.采用hanlp库对预处理后获得的关键句进行依存句法分析得到该关键句对应的词列表,记为qi,其中,i=1,2,…,m,m为关键句中词个数;将词列表中的每个词进行属性标注:词、词序号、词性、父节点、与父节点的关系,将标注的词属性作为该词在树中的结点属性,并将结点属性存放在对应的数据结构中;
2-2.构建依存句法关系树:将词列表中的每个词作为一个节点,标注每个节点的父节点和子节点集合,以及每个节点的层数,所述的层数即每个节点到根节点的距离;
2-3.根据节点所在层,将节点赋予相对应的权重,具体权重计算如下:



其中C为依存句法树的总层数,Ns为该节点所在层数。


4.根据权利要求3所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于步骤3所述的设定特殊规则并检索关键词,具体实现如下:
3-1.设定关键词构成规则;
3-2.根据步骤3-1设定规则,深度优先搜索关键词;
3-3根据步骤3-1设定规则,广度优先搜索关键词组合。


5.根据权利要求4所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于步骤3-1所述的设定关键词构成规则,具...

【专利技术属性】
技术研发人员:吴欣阳傅啸齐炳森陈鹏宇闫梦琦
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1