【技术实现步骤摘要】
依存句法树构建系统
本专利技术涉及语境核心词提取领域,具体为一种基于语境的依存句法树构建系统。
技术介绍
关键词提取领域有很多的研究成果,主要可以分为基于统计的方法、基于机器学习的方法与基于语义的方法。在基于语义相关性的关键词提取算法,通过词共现信息计算短语之间的语义相关度,将文件描绘成一个相关度图。基于语义分析的关键词提取方法虽然比前两种方法提取的关键词质量更高,但还存在着词义消歧的问题,难以获得最小语境。基于上述技术问题,需要设计一种新的基于语境的依存句法树构建系统。
技术实现思路
本专利技术的目的是提供一种基于语境的依存句法树构建系统。为了解决上述技术问题,本专利技术提供了一种基于语境的依存句法树构建系统,包括:获取模块,获取句子;切分模块,通过核心词判断将句子切分形成片段序列;语境归属模块,判断片段序列之间的中间词的归属语境;最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及构建依存句法树模块,基于最小语境集合构建依存句法树。进一步,所述获取模块适于获取句子,即初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。进一步,所述切分模块适 ...
【技术保护点】
1.一种依存句法树构建系统,其特征在于,包括:获取模块,获取句子;切分模块,通过核心词判断将句子切分形成片段序列;语境归属模块,判断片段序列之间的中间词的归属语境;最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及构建依存句法树模块,基于最小语境集合构建依存句法树。
【技术特征摘要】
1.一种依存句法树构建系统,其特征在于,包括:获取模块,获取句子;切分模块,通过核心词判断将句子切分形成片段序列;语境归属模块,判断片段序列之间的中间词的归属语境;最小语境集合模块,去除单个词的语境,以获得最小语境集合;以及构建依存句法树模块,基于最小语境集合构建依存句法树。2.如权利要求1所述的基于语境的依存句法树构建系统,其特征在于,所述获取模块适于获取句子,即初始化词字典,针对训练文本集中每个文本D,将文本D拆分成句子集合S。3.如权利要求2所述的基于语境的依存句法树构建系统,其特征在于,所述切分模块适于通过核心词判断将句子切分形成片段序列,即遍历句子集合S,将其中每一个句子拆分成n个词形成词集合WS;针对词集合WS中每个词wi,i∈n计算其与词集合中任一词的共现次数;查找词字典中词wi,将词wi与词集合WS中的其它词wj,j∈n按<wj,couni>累加;针对词字典,进行遍历,求出每个词wi的语境共现频率向量Vi,即将所有与词wi具有共现关系的词,基于公式:其中wj∈WS且wj≠wi,m∈n.m=n-1,获得语境共现频率向量Vi;式中为其它词wj的共现频率,为其它词wj和词wi的共现次数;基于公式计算出每个词wi的语境共现熵值H(Vi),完成整个文本的训练;针对文本集进行文本分类处理后得到的文本分类集中任一句子集合S,将其拆分成词集合WS,遍历其中每个词wi,根据词字典中词wi对应的熵,逐一比较各词的语境共现熵值,具有最大语境共现熵值的词即为核心词;基于各词的语境共现熵值按照各词在句中的位置生成折线图,在折线图中的拐点处的相邻词的语境共现熵值均大于拐点处的词的语境共现熵值,则按拐点将折线图切分成各个片段,形成片段序列。4.如权利要求3所述的基于语境的依存句法树构建系统,其特征在于,所述语境归属模块适于判断片段序列之间的中间词的归属语境,即相邻二个片段序列之间的中间词归属于语境共现熵值较大的核心词所在的片段序列对应的语境。5.如权利要求2所述的基于语境的依存句法树构建系统,其特征在于,所述切分模块适于通过核心词判断将句子切分形成片段序列,即基于入度和比较的语境核心词判断算法将句子切分形成片段序列,即将一个句子S′拆分成n′个词形成词集合WS′′;遍历词集合WS′′中每一个词wi′′,求出每个词wi′′的语境共现频率向量Vi′′,即将所有与词wi′′具有共现关系的词,基于公式:其中wi′′,wj′′∈WS′′且wj′′≠wi′′,m′=n′-1,i′,j′,m′∈n′,获得语...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。