一种基于图数据库的语句改写方法、系统及计算机存储介质技术方案

技术编号:35788214 阅读:17 留言:0更新日期:2022-12-01 14:36
本发明专利技术公开了一种基于图数据库的语句改写方法、系统及计算机存储介质,该语句改写方法包括:使用自然语言处理分词工具对大量现成的句子进行分词,将分词结果存储于图数据库中,电子设备接收到用户输入或其他设备发送的待处理语句;使用自然语言处理分词工具对待处理语句进行分词,并得出待处理语句中各个词语的词性;将所述待处理语句的分词结果与图数据库所储存的数据进行匹配,对所述待处理语句的词语进行重组,得出重构后的句子。该方法能够实现对句子中词语顺序的重组,尤其适用于针对语句改写时出现指代问题,倒装等特殊句式,且利用数据库的方式可以循环利用数据库数据,一次缓存之后改写效率非常高。次缓存之后改写效率非常高。次缓存之后改写效率非常高。

【技术实现步骤摘要】
一种基于图数据库的语句改写方法、系统及计算机存储介质


[0001]本专利技术涉及自然语言数据处理领域,更具体地,本专利技术涉及一种基于图数据库的语句改写方法、系统及计算机存储介质。

技术介绍

[0002]搭建基于自然语言的智能对话系统来与人类进行交流,是人工智能的一个重要研究目标。对话系统的种类多样,其中,任务型对话系统能够协助人类完成特定领域下的特定任务,因而在电子客服、个人助理、自助终端等业务中有广泛的应用前景,得到了研究界和工业界的重点关注。
[0003]在进行中文语句改写的时候,需要考虑中文独特的句子结构,句子中会出现大量的代词或者省略甚至倒装的格式,目前的句子改写大多是利用算法求特征值矩阵,根据特征值实现指代消解,甚至补充省略词语的作用。但是算法实现的语句改写在实现难度上较大,对专业要求性高,在前期模型构建时需要的数据量大,且不能实现倒装句的改写。

技术实现思路

[0004]本专利技术克服了现有技术的不足,提供一种基于图数据库的语句改写方法,以期望可以解决目前中文语句改写中的问题。
[0005]本专利技术的一种实施方式采用以下技术方案,一种基于图数据库的语句重组方法,包括以下步骤:
[0006]S1:使用自然语言处理(NLP)分词工具对大量现成的句子进行分词,分词后得到句子中各个词语的词性,根据词语词性以及词语在句子中的位置,确定词语在句子中的成分,并确定词语的顺序关系;
[0007]S2:使用图数据库存储词语词性、句子成分与顺序关系;
[0008]S3:电子设备接收到用户输入或其他设备发送的待处理语句;
[0009]S4:使用自然语言处理(NLP)分词工具对待处理语句进行分词,并得出待处理语句中各个词语的词性;
[0010]S5:将所述待处理语句的分词结果与图数据库所储存的数据进行匹配,对所述待处理语句的词语进行重组,得出重构后的句子。
[0011]通过上述步骤能够实现对句子中词语顺序的重组,尤其适用于针对语句改写时出现指代问题,倒装等特殊句式,且利用数据库的方式可以循环利用数据库数据,一次缓存之后改写效率非常高。
[0012]进一步的技术方案为,所述自然语言处理(NLP)分词工具为HanLP工具包。HanLP是一系列模型与算法分析组成的NLP工具包,它可以实现诸如:中文分词、词性标注、命名实体识别等一系列的功能,尤其对中文的句法分析有很快的响应速度和极高的准确率。
[0013]更进一步的技术方案为,所述S1还包括,对分词后的词语赋予权重,具体为,对特定组合的词语赋予高权重,对没有自定义修改权重的词语赋予默认权重。
[0014]通过对词语赋予权重,能够提高特定词汇的识别准确率,避免识别错误。
[0015]更进一步的技术方案为,所述S5具体为,对所述待处理语句的分词结果与图数据库所储存的数据进行匹配,根据图数据库中的相同词性的词语之间的顺序关系,对所述待处理语句的词语进行重组,得出重构后的句子。
[0016]更进一步的技术方案为,所述S5具体为,对所述待处理语句的分词结果与图数据库所储存的数据进行匹配,根据图数据库中的相同词性的词语的句子成分,判断待处理语句的词语句子成分;
[0017]按照语言规则排列词语的先后顺序,对所述待处理语句的词语进行重组,对特殊词语按照图数据库中相应的顺序进行重组,最终得出重构后的句子。
[0018]所述语言规则包括主谓结构、动宾结构、定状结构等,所述特殊词语包括指示代词、时间、地点等限定词等。
[0019]由于图数据库存储的数据不仅可以存储到单独数据的信息,还可以存储数据之间的关系和其他信息。数据之间的关系有单向的也有双向的,查询时可以正向也可以反向,极大地提升了数据匹配准确度。
[0020]更进一步的技术方案为,所述基于图数据库的语句重组方法还包括S6:对重构后的句子与图数据库中存储的大量现有语句进行相似度检测,将最相似的现有语句作为输出结果。
[0021]通过上述步骤能够进一步保证重组的语句的逻辑正确性。
[0022]更进一步的技术方案为,所述相似度判断的具体方法包括:判断所述待处理语句的主语,再根据主语查找相关语句。
[0023]上述方法能够进一步提高判断语句相似性的准确度。
[0024]此外,为实现上述目的,本专利技术还提供了一种基于图数据库的语句重组系统,其特征在于,包括以下模块:语句交互模块、图数据库、自然语言处理(NLP)分词模块、语句生成模块;
[0025]所述语句交互模块,用于获取自然语句;
[0026]所述图数据库,用于储存句子分词后的词语词性、句子成分、词语顺序的结果;
[0027]所述自然语言处理(NLP)分词模块,用于对句子进行分词,分词后得到句子中各个词语的词性;
[0028]所述语句生成模块,用于对待处理语句的分词结果与图数据库所储存的数据进行匹配,对所述待处理语句的词语进行重组,得出重构后的句子。
[0029]此外,为实现上述目的,本专利技术还提供了一种基于图数据库的语句重组计算机存储介质,其特征在于,所述存储介质存储有程序指令,所述程序指令被执行时实现:
[0030]S1:使用自然语言处理(NLP)分词工具对大量现成的句子进行分词,分词后得到句子中各个词语的词性,根据词语词性以及词语在句子中的位置,确定词语在句子中的成分,并确定词语的顺序关系;
[0031]S2:使用图数据库存储词语词性、句子成分与顺序关系;
[0032]S3:电子设备接收到用户输入或其他设备发送的待处理语句;
[0033]S4:使用自然语言处理(NLP)分词工具对待处理语句进行分词,并得出待处理语句中各个词语的词性;
[0034]S5:将所述待处理语句的分词结果与图数据库所储存的数据进行匹配,对所述待处理语句的词语进行重组,得出重构后的句子。
[0035]与现有技术相比,本专利技术至少具有以下有益效果:通过自然语言处理(NLP)分词工具对现成语句分词,并使用图数据库存储词语词性、句子成分与顺序关系,对待处理语句进行分词,并与图数据库数据匹配完成语句重构,能够实现对句子中词语顺序的重组,尤其适用于针对语句改写时出现指代问题,倒装等特殊句式,避免了使用算法改写所存在的对专业要求性高,前期模型构建数据量大,不能实现倒装句的改写的问题。
附图说明
[0036]图1为基于图数据库的语句改写方法的流程示意图。
[0037]图2为本专利技术所述图数据库存储的分词结果示意图。
[0038]图3为基于图数据库的语句改写方法的系统交互示意图。
具体实施方式
[0039]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0040]本专利技术克服了现有技术的不足,提供一种基于图数据库的语句改写方法实施方式,以期望可以解决目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图数据库的语句重组方法,其特征在于,包括以下步骤:S1:使用自然语言处理分词工具对大量现成的句子进行分词,分词后得到句子中各个词语的词性,根据词语词性以及词语在句子中的位置,确定词语在句子中的成分,并确定词语的顺序关系;S2:使用图数据库存储词语词性、句子成分与顺序关系;S3:电子设备接收到用户输入或其他设备发送的待处理语句;S4:使用自然语言处理分词工具对待处理语句进行分词,并得出待处理语句中各个词语的词性;S5:将所述待处理语句的分词结果与图数据库所储存的数据进行匹配,对所述待处理语句的词语进行重组,得出重构后的句子。2.如权利要求1所述的一种基于图数据库的语句重组方法,其特征在于,所述自然语言处理分词工具为HanLP工具包。3.如权利要求1所述的一种基于图数据库的语句重组方法,其特征在于,所述S1还包括,对分词后的词语赋予权重,具体为,对特定组合的词语赋予高权重,对没有自定义修改权重的词语赋予默认权重。4.如权利要求1所述的一种基于图数据库的语句重组方法,其特征在于,所述S5具体为,对所述待处理语句的分词结果与图数据库所储存的数据进行匹配,根据图数据库中的相同词性的词语之间的顺序关系,对所述待处理语句的词语进行重组,得出重构后的句子。5.如权利要求1所述的一种基于图数据库的语句重组方法,其特征在于,所述S5具体为,对所述待处理语句的分词结果与图数据库所储存的数据进行匹配,根据图数据库中的相同词性的词语的句子成分,判断待处理语句的词语句子成分;按照语言规则排列词语的先后顺序,对特殊词语按照图数据库中相应的顺序重组语句,对所述待处理语句的词语进行重组,得出重构后的句...

【专利技术属性】
技术研发人员:李俊明周红胡凯梁艳孙铭程蕾
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1