【技术实现步骤摘要】
基于依存句法树的中文问题的关键词抽取方法
:本专利技术属于数据检索领域,针对校园问答系统主要提出了一种基于依存句法树的中文问题的关键词抽取方法。
技术介绍
:问答系统是指使用自然语言对用户输入的问句做出相应回复的智能系统,系统根据用户所输入的问题检索标准问答库,然后自动返回相应的回答。所以,系统对问题的检索结果是否准确直接影响到该用户对问答系统的使用体验。现有技术中检索问题相应回答时,通常先将问题提取关键词集,然后再使用词集进行录入检索,若关键词抽取不准确,将直接影响到检索的结果是否准确。目前关键词提取为根据自定义词库以及常用词库进行分词选定,存在不够精准,自定义工作量大,通用性差的技术问题。比如,对于给定的一个领域的问题,该领域的自定义词库需要人工添加,如果将该算法引入到新的领域当中,需重新添加词库,灵活性较差。另外,一些问题的关键词较冗余,对正确答案的定位并无帮助,极大地降低的检索的效率。
技术实现思路
:本专利技术旨在解决问题关键词提取中冗余较多,人工干预较大的问题,增强关键词提取算法在不同领域下的通用性,尽可能地减少自定义词库的工作量,并提升答案定位的准确率和效率。本专利技术在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树。在此基础上,我们设定了新的关键词组合规则,将词与关系节点(父节点,子节点,兄弟节点)根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重。同时,本专利技术还采用了全新规则的停用词表,去除了绝大部分无效关键词,有助于 ...
【技术保护点】
1.基于依存句法树的中文问题的关键词抽取方法,其特征在于在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树;同时设定新的关键词组合规则,将词与关系节点根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重;关系节点包括父节点、子节点、兄弟节点。/n
【技术特征摘要】
1.基于依存句法树的中文问题的关键词抽取方法,其特征在于在中文句法分词的基础上,对句子进行依存句法分析,构建出依存句法分析树;同时设定新的关键词组合规则,将词与关系节点根据特定中文语法关系组合成新的关键词,并依据词节点权重对关键词赋予检索优先级权重;关系节点包括父节点、子节点、兄弟节点。
2.根据权利要求1所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于具体实现步骤如下:
步骤1:对文本数据进行预处理:主要指对所得文本数据集进行清洗和结构化整理;
步骤2:基于依存句法构建依存句法关系树
步骤3:设定特殊规则并检索关键词
步骤4:根据关键词权重对关键词集合中的所有关键词进行优先级排序;
步骤1所述的数据预处理主要包含以下步骤:
1-1.数据清洗:删除文本中的非法字符、空格、换行符;
1-2.删除问候语和疑问词,包括“你好”,“请问”;
1-3.采用textrank中的关键句抽取,对多个句子组成的问题文本做一个缩句操作,抽取的关键句数量为N,N=int(原句子数量*60%)。
3.根据权利要求1或2所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于步骤2所述的基于依存句法构建依存句法关系树,具体实现如下:
2-1.采用hanlp库对预处理后获得的关键句进行依存句法分析得到该关键句对应的词列表,记为qi,其中,i=1,2,…,m,m为关键句中词个数;将词列表中的每个词进行属性标注:词、词序号、词性、父节点、与父节点的关系,将标注的词属性作为该词在树中的结点属性,并将结点属性存放在对应的数据结构中;
2-2.构建依存句法关系树:将词列表中的每个词作为一个节点,标注每个节点的父节点和子节点集合,以及每个节点的层数,所述的层数即每个节点到根节点的距离;
2-3.根据节点所在层,将节点赋予相对应的权重,具体权重计算如下:
其中C为依存句法树的总层数,Ns为该节点所在层数。
4.根据权利要求3所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于步骤3所述的设定特殊规则并检索关键词,具体实现如下:
3-1.设定关键词构成规则;
3-2.根据步骤3-1设定规则,深度优先搜索关键词;
3-3根据步骤3-1设定规则,广度优先搜索关键词组合。
5.根据权利要求4所述的基于依存句法树的中文问题的关键词抽取方法,其特征在于步骤3-1所述的设定关键词构成规则,具...
【专利技术属性】
技术研发人员:吴欣阳,傅啸,齐炳森,陈鹏宇,闫梦琦,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。