【技术实现步骤摘要】
语句压缩方法、装置、设备及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种语句压缩方法、装置、设备及计算机可读存储介质。
技术介绍
目前,句子压缩技术是自然语言处理领域的一个重要的研究方向之一,它可以有效地修剪原句的冗余信息,保留主题思想,便于读者阅读和机器识别,目前在主题的自动提取、摘要的自动生成、视频和语音处理领域都有广泛的应用。机器因无法很好地解析、理解客户表述的长难语句,从而给出错误或无用的响应,给用户造成了极差的体验,如何在压缩待压缩长语句的同时尽可能保留原待压缩长语句的重要信息,是目前本领域亟待解决的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种语句压缩方法、装置、设备及计算机可读存储介质,旨在解决由语句压缩而造成的语句重要信息保留率低的技术问题。为实现上述目的,本专利技术提供一种语句压缩方法,所述语句压缩方法包括以下步骤:通过分隔符将待压缩长语句分割成至少两个短语句;通过预置文本分类模型从所述至少两个短语句中筛选出至少一个关键语句,并将所述至少一个关键语句拼接成测试语句;判断所述测试语句的字节长度是否大于或等于最小压缩字节长度;若所述测试语句的字节长度大于或等于所述最小压缩字节长度,则对所述测试语句进行分词,得到分词句子;通过预置策略算法生成所述分词句子对应的句法树,其中,所述句法树包括至少一个候选压缩语句;计算所述候选压缩语句的信息量;基于所述信息量确定专有名词和关键词在句子中的重要指数;< ...
【技术保护点】
1.一种语句压缩方法,其特征在于,所述语句压缩方法包括:/n通过分隔符将待压缩长语句分割成至少两个短语句;/n通过预置文本分类模型从所述至少两个短语句中筛选出至少一个关键语句,并将所述至少一个关键语句拼接成测试语句;/n判断所述测试语句的字节长度是否大于或等于最小压缩字节长度;/n若所述测试语句的字节长度大于或等于所述最小压缩字节长度,则对所述测试语句进行分词,得到分词句子;/n通过预置策略算法生成所述分词句子对应的句法树,其中,所述句法树包括至少一个候选压缩语句;/n计算所述候选压缩语句的信息量;/n基于所述信息量确定专有名词和关键词在句子中的重要指数;/n基于所述专有名词和所述关键词在句子中的所述重要指数,计算每个候选压缩语句的信息密度;/n将所述信息密度最大的候选压缩语句作为最终的压缩语句。/n
【技术特征摘要】
1.一种语句压缩方法,其特征在于,所述语句压缩方法包括:
通过分隔符将待压缩长语句分割成至少两个短语句;
通过预置文本分类模型从所述至少两个短语句中筛选出至少一个关键语句,并将所述至少一个关键语句拼接成测试语句;
判断所述测试语句的字节长度是否大于或等于最小压缩字节长度;
若所述测试语句的字节长度大于或等于所述最小压缩字节长度,则对所述测试语句进行分词,得到分词句子;
通过预置策略算法生成所述分词句子对应的句法树,其中,所述句法树包括至少一个候选压缩语句;
计算所述候选压缩语句的信息量;
基于所述信息量确定专有名词和关键词在句子中的重要指数;
基于所述专有名词和所述关键词在句子中的所述重要指数,计算每个候选压缩语句的信息密度;
将所述信息密度最大的候选压缩语句作为最终的压缩语句。
2.如权利要求1所述的语句压缩方法,其特征在于,所述通过预置策略算法将所述分词句子生成句法树,其中,所述句法树包括至少一个候选压缩语句包括:
调用库函数对所述分词句子进行依存句法分析和语义依存分析,得到分析结果;
根据所述分析结果构建至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。
3.如权利要求2所述的语句压缩方法,其特征在于,所述调用库函数对所述分词句子进行依存句法分析和语义依存分析,得到分析结果包括:
调用库函数对所述分词句子的结构和语义分别进行标注,得到标注结果;
遍历预先设置的标注集合,判断所述标注集合中是否存在所述标注结果;
若所述标注集合存在所述标注结果,则得到分析结果。
4.如权利要求2所述的语句压缩方法,其特征在于,所述根据所述分析结果构建至少一个句法树,其中,所述句法树包括至少一个候选压缩语句包括:
通过分词工具HanLP对所述分析结果进行分词,得到候选压缩语句;
将所述候选压缩语句缓存进预先设置的初始句法树,得到至少一个句法树,其中,所述句法树包括至少一个候选压缩语句。
5.如权利要求1所述的语句压缩方法,其特征在于,所述计算所述候选压缩语句的信息量包括:
通过以下公式计算所述候选压缩语句的信息量;
其中,Wi为文本的词语,tfij为Wi在文本中的频率,idfij为Wi的逆文档频率,w为专有名词或关键词的附加权...
【专利技术属性】
技术研发人员:谢舒翼,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。