语句压缩方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:24996866 阅读:26 留言:0更新日期:2020-07-24 17:59
本发明专利技术涉及人工智能技术领域,公开了一种语句压缩方法,包括以下步骤:通过分隔符将待压缩长语句分割成一个或多个短句;通过预置文本分类模型从所述一个或多个短句中筛选出一个或多个关键语句,并将一个或多个关键语句拼接成测试语句;若测试语句的字节长度大于最小压缩字节长度,则对测试语句进行分词,得到分词句子;通过预置策略算法生成分词句子对应的句法树;根据专有名词和关键词在句子中的重要指数,计算每个候选压缩语句的信息密度;将信息密度最大的候选压缩语句作为最终的压缩语句输出。本发明专利技术还公开了一种语句压缩装置、设备及计算机可读存储介质。本发明专利技术提供的语句压缩方法提高了语句压缩的效率。

【技术实现步骤摘要】
语句压缩方法、装置、设备及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种语句压缩方法、装置、设备及计算机可读存储介质。
技术介绍
目前,句子压缩技术是自然语言处理领域的一个重要的研究方向之一,它可以有效地修剪原句的冗余信息,保留主题思想,便于读者阅读和机器识别,目前在主题的自动提取、摘要的自动生成、视频和语音处理领域都有广泛的应用。机器因无法很好地解析、理解客户表述的长难语句,从而给出错误或无用的响应,给用户造成了极差的体验,如何在压缩待压缩长语句的同时尽可能保留原待压缩长语句的重要信息,是目前本领域亟待解决的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种语句压缩方法、装置、设备及计算机可读存储介质,旨在解决由语句压缩而造成的语句重要信息保留率低的技术问题。为实现上述目的,本专利技术提供一种语句压缩方法,所述语句压缩方法包括以下步骤:通过分隔符将待压缩长语句分割成至少两个短语句;通过预置文本分类模型从所述至少两个短语句中筛选出至少一个关键语句,并将所述至少一个关键语句拼接成测试语句;判断所述测试语句的字节长度是否大于或等于最小压缩字节长度;若所述测试语句的字节长度大于或等于所述最小压缩字节长度,则对所述测试语句进行分词,得到分词句子;通过预置策略算法生成所述分词句子对应的句法树,其中,所述句法树包括至少一个候选压缩语句;计算所述候选压缩语句的信息量;基于所述信息量确定专有名词和关键词在句子中的重要指数;<br>基于所述专有名词和所述关键词在句子中的所述重要指数,计算每个候选压缩语句的信息密度:将所述信息密度最大的候选压缩语句作为最终的压缩语句。可选地,所述通过预置策略算法将所述分词句子生成句法树,其中,所述句法树包括至少一个候选压缩语句包括:调用库函数对所述分词句子进行依存句法分析和语义依存分析,得到分析结果;根据所述分析结果构建至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。可选地,所述调用库函数对所述分词句子进行依存句法分析和语义依存分析,得到分析结果包括:调用库函数对所述分词句子的结构和语义分别进行标注,得到标注结果;遍历预先设置的标注集合,判断所述标注集合中是否存在所述标注结果;若所述标注集合存在所述标注结果,则得到分析结果。可选地,所述根据所述分析结果构建至少一个句法树,其中,所述句法树包括至少一个候选压缩语句包括:通过分词工具HanLP对所述分析结果进行分词,得到候选压缩语句;将所述候选压缩语句缓存进预先设置的初始句法树,得到至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。可选地,所述计算每个候选压缩语句的信息密度包括:通过以下公式计算所述候选压缩语句的信息量;其中,Wi为文本的词语,tfij为Wi在文本中的频率,idfij为Wi的逆文档频率,w为专有名词或关键词的附加权重。可选地,所述基于所述专有名词和所述关键词在句子中的所述重要指数,计算每个候选压缩语句的信息密度包括:基于所述专有名词和所述关键词在句子中的所述重要指数,通过以下公式计算每个候选压缩语句的信息密度:其中,D(sk)为信息密度,I(wi)为词语wi的信息量,P为句子SK中所有的词语列表、L(SK)为句子SK的句子长度,SK为句子。可选地,在所述通过以下公式计算所述候选压缩语句的信息量之后,还包括:判断是否存在获取专有名词和关键字的请求;若存在获取所述专有名词和所述关键字的请求,则更新所述专有名词和所述关键词的当前使用频率。进一步地,为实现上述目的,本专利技术还提供一种语句压缩装置,所述语句压缩装置包括以下模块:分割模块,用于通过分隔符将待压缩长语句分割成至少两个短语句;筛选模块,用于通过预置文本分类模型从所述至少两个短语句中筛选出至少一个关键语句,并将所述至少一个关键语句拼接成测试语句;长度判断模块,用于判断所述测试语句的字节长度是否大于或等于最小压缩字节长度;分词模块,用于若所述测试语句的字节长度大于或等于所述最小压缩字节长度,则对所述测试语句进行分词,得到分词句子;构建模块,用于通过预置策略算法生成所述分词句子对应的句法树,其中,所述句法树包括至少一个候选压缩语句;信息量计算模块,用于计算所述候选压缩语句的信息量;重要指数确定模块,用于基于所述信息量确定专有名词和关键词在句子中的重要指数;计算模块,用于基于所述专有名词和所述关键词在句子中的所述重要指数,计算每个候选压缩语句的信息密度:压缩语句输出模块,用于将所述信息密度最大的候选压缩语句作为最终的压缩语句。可选地,所述构建模块包括以下单元:分析单元,用于调用库函数对所述分词句子进行依存句法分析和语义依存分析,得到分析结果;构建单元,用于根据所述分析结果构建至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。可选地,所述分析单元用于:调用库函数对所述分词句子的结构和语义分别进行标注,得到标注结果;遍历预先设置的标注集合,判断所述标注集合中是否存在所述标注结果;若所述标注集合存在所述标注结果,则得到分析结果。可选地,所述构建单元用于:通过分词工具HanLP对所述分析结果进行分词,得到候选压缩语句;将所述候选压缩语句缓存进预先设置的初始句法树,得到至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。可选地,所述信息量计算模块包括:信息量计算单元,用于通过以下公式计算所述候选压缩语句的信息量;其中,Wi为文本的词语,tfij为Wi在文本中的频率,idfij为Wi的逆文档频率,w为专有名词或关键词的附加权重。可选地,所述计算模块包括:信息密度计算单元,用于基于所述专有名词和所述关键词在句子中的所述重要指数,通过以下公式计算每个候选压缩语句的信息密度:其中,D(sk)为信息密度,I(wi)为词语wi的信息量,P为句子SK中所有的词语列表、L(SK)为句子SK的句子长度,SK为句子。可选地,所述语句压缩装置还包括:请求判断模块,用于判断是否存在获取专有名词和关键字的请求;更新模块,用于若存在获取所述专有名词和所述关键字的请求,则更新所述专有名词和所述关键词的当前使用频率。进一步地,为实现上述目的,本专利技术还提供一种语句压缩设备,所述语句压缩设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的语句压缩程序,所述语句压缩程序被所述处理器执行时实现如上述任一项所述的语句压缩方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语句压缩程序,所述语句压缩程序被处理器执行时实现如上述任一项所述的语句压缩方法的步骤。本本文档来自技高网...

【技术保护点】
1.一种语句压缩方法,其特征在于,所述语句压缩方法包括:/n通过分隔符将待压缩长语句分割成至少两个短语句;/n通过预置文本分类模型从所述至少两个短语句中筛选出至少一个关键语句,并将所述至少一个关键语句拼接成测试语句;/n判断所述测试语句的字节长度是否大于或等于最小压缩字节长度;/n若所述测试语句的字节长度大于或等于所述最小压缩字节长度,则对所述测试语句进行分词,得到分词句子;/n通过预置策略算法生成所述分词句子对应的句法树,其中,所述句法树包括至少一个候选压缩语句;/n计算所述候选压缩语句的信息量;/n基于所述信息量确定专有名词和关键词在句子中的重要指数;/n基于所述专有名词和所述关键词在句子中的所述重要指数,计算每个候选压缩语句的信息密度;/n将所述信息密度最大的候选压缩语句作为最终的压缩语句。/n

【技术特征摘要】
1.一种语句压缩方法,其特征在于,所述语句压缩方法包括:
通过分隔符将待压缩长语句分割成至少两个短语句;
通过预置文本分类模型从所述至少两个短语句中筛选出至少一个关键语句,并将所述至少一个关键语句拼接成测试语句;
判断所述测试语句的字节长度是否大于或等于最小压缩字节长度;
若所述测试语句的字节长度大于或等于所述最小压缩字节长度,则对所述测试语句进行分词,得到分词句子;
通过预置策略算法生成所述分词句子对应的句法树,其中,所述句法树包括至少一个候选压缩语句;
计算所述候选压缩语句的信息量;
基于所述信息量确定专有名词和关键词在句子中的重要指数;
基于所述专有名词和所述关键词在句子中的所述重要指数,计算每个候选压缩语句的信息密度;
将所述信息密度最大的候选压缩语句作为最终的压缩语句。


2.如权利要求1所述的语句压缩方法,其特征在于,所述通过预置策略算法将所述分词句子生成句法树,其中,所述句法树包括至少一个候选压缩语句包括:
调用库函数对所述分词句子进行依存句法分析和语义依存分析,得到分析结果;
根据所述分析结果构建至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。


3.如权利要求2所述的语句压缩方法,其特征在于,所述调用库函数对所述分词句子进行依存句法分析和语义依存分析,得到分析结果包括:
调用库函数对所述分词句子的结构和语义分别进行标注,得到标注结果;
遍历预先设置的标注集合,判断所述标注集合中是否存在所述标注结果;
若所述标注集合存在所述标注结果,则得到分析结果。


4.如权利要求2所述的语句压缩方法,其特征在于,所述根据所述分析结果构建至少一个句法树,其中,所述句法树包括至少一个候选压缩语句包括:
通过分词工具HanLP对所述分析结果进行分词,得到候选压缩语句;
将所述候选压缩语句缓存进预先设置的初始句法树,得到至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。


5.如权利要求1所述的语句压缩方法,其特征在于,所述计算所述候选压缩语句的信息量包括:
通过以下公式计算所述候选压缩语句的信息量;



其中,Wi为文本的词语,tfij为Wi在文本中的频率,idfij为Wi的逆文档频率,w为专有名词或关键词的附加权...

【专利技术属性】
技术研发人员:谢舒翼
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1