一种自然语言文本的惯用句式提取方法及电子装置制造方法及图纸

技术编号:31305830 阅读:43 留言:0更新日期:2021-12-12 21:20
本发明专利技术提供一种自然语言文本的惯用句式提取方法及电子装置,包括:对采集到的每一语句进行分词、词性标注及依存句法分析;将各语句转换为若干单句,并依据词性标注结果与依存句法分析结果,对各单句主干进行抽取,将各单句表示为词汇和词性标签的列表;将各单句的列表进行合并,得到各语句的惯用句式。本发明专利技术提出一种不损失句式信息的长难句化简方法,针对句式提取的需要对中文长难句中非句子主干部分进行处理,提高句式提取准确度,本发明专利技术还提出一种句式信息表示结构,使用词汇、词汇候选集、词性标签来表示句式信息,保留尽可能多的句式信息。句式信息。句式信息。

【技术实现步骤摘要】
一种自然语言文本的惯用句式提取方法及电子装置


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种自然语言文本的惯用句式提取方法及电子装置。

技术介绍

[0002]随着通信技术的多样化和便捷化以及计算机网络的迅速发展,信息产生和传播的速度日新月异。其中,以自然语言形式传播的信息数量尤为庞大,其具有形式多样化、处理复杂度高等特征。随着近年来机器学习技术的发展,人们对自然语言处理技术的需求愈发深入,一方面希望能更好的理解已有的自然语言文本,从中挖掘出更多价值;另一方面开始探索让计算机具有说话、写作的能力,即自然语言生成技术。人们在说话或者写作中往往遵循一定的规范,在文本中可体现为一些高频句式,这些常用句式在某些场景,如广告宣传、新闻通告、书面文件中尤为常见,寻找一种准确且通用的算法对这些句式进行提取,不论对文本理解类任务或者文本生成类任务,都会有极大的帮助。
[0003]中文句式抽取方法多是基于依存句法分析和词性标注,但一方面,句式抽取在大多数情况下仅作为其他自然语言处理任务的一小部分,比如自动化问答系统、信息抽取、语义理解,满足特定应本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种自然语言文本的惯用句式提取方法,其步骤包括:1)对采集到的每一语句进行分词、词性标注及依存句法分析;2)将各语句转换为若干单句,并依据词性标注结果与依存句法分析结果,对各单句主干进行抽取,将各单句表示为词汇和词性标签的列表;3)将各单句的列表进行合并,得到各语句的惯用句式。2.如权利要求1所述的方法,其特征在于,使用HanLP中文处理工具包对每一语句进行分词、词性标注及依存句法分析。3.如权利要求1所述的方法,其特征在于,通过以下步骤将各语句转换为若干单句:1)若语句中包含连词或逗号,查找连词或逗号的前部分语句及后部分语句中是否包含的谓语;2)若都包含谓语,则在连词或逗号的位置进行切分,删除连词或逗号,将前部分语句与后部分语句分别设为单句;3)将不包含连词或逗号、前部分语句及后部分语句中不都包含谓语的语句,设为单句。4.如权利要求1所述的方法,其特征在于,通过以下步骤对得到的单句进行处理:1)根据分词结果,将各语句表示为词汇列表;2)设置滑动窗口扫描各语句,若在窗口内出现重复n次的同词性词汇,则保留第一个同词性词汇,删除其他的同词性词汇,n≥2;3)通过依存句法分析结果,对各语句中对非修饰核心词的定语成分与状语成...

【专利技术属性】
技术研发人员:戚梦苑万辛孙晓晨李鹏黄远杨晶超王勇梁睿琪
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1