基于知识图谱的文本识别方法、装置、存储介质和服务器制造方法及图纸

技术编号：26924062 阅读：15 留言：0更新日期：2021-01-01 22:48

本申请涉及人工智能技术领域，提出一种基于知识图谱的文本识别方法、装置、存储介质和服务器。该方法包括：获取待测案件的法律文本；基于所述法律文本以及预先构建的知识图谱知识层，构建目标知识图谱；采用知识表示的方法，将所述目标知识图谱的实体和关系表示为向量的形式，得到第一数据向量；采用知识表示的方法，将预设的各个法条文本表示为向量的形式，分别得到各个法条对应的知识表示向量；分别计算所述第一数据向量和每个所述知识表示向量之间的相似度；将所述相似度最高的前设定数量的知识表示向量所对应的法条确定为所述待测案件涉及的法条。通过采用知识表示的方法解决法律场景常见的一对多，多对一的关系，可以提高法条预测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识图谱的文本识别方法、装置、存储介质和服务器
本申请涉及人工智能
，尤其涉及一种基于知识图谱的文本识别方法、装置、存储介质和服务器。
技术介绍
法律适用推送指的是根据法律文书或段落预测文书所涉及的法条，即根据法律文书中的案情描述和事实部分等内容，预测本案涉及的相关法条，从而辅助法官对案件进行判决。现有的法律适用推送技术，一般将文书内容采用word2vec等文本表示方法转换成文本向量，然后将文本向量输入一个使用神经网络训练的多标签分类模型，以得到预测的法条，该过程的本质是文本识别与分类。然而，由于文书的篇幅较长而关键信息相对较少(如争议焦点，案由，法院名称等)，故仅使用单一文本表示方法表示文本很大程度上会丢失关键信息，导致法条预测的准确率较低。
技术实现思路
有鉴于此，本申请提出一种基于知识图谱的文本识别方法、装置、存储介质和服务器，能够提高法条预测的准确率。第一方面，本申请实施例提供了一种基于知识图谱的文本识别方法，包括：获取待测案件的法律文本；基于所述法律文本以及预先构建的知识图谱知识层，构建目标知识图谱；采用知识表示的方法，将所述目标知识图谱的实体和关系表示为向量的形式，得到第一数据向量；采用知识表示的方法，将预设的各个法条文本表示为向量的形式，分别得到各个法条对应的知识表示向量；分别计算所述第一数据向量和每个所述知识表示向量之间的相似度；将所述相似度最高的前设定数量的知识表示向量所对应的法条确定为所述待测案件涉及的法条。r>上述过程通过引入知识图谱的知识层，可以实现关键信息(比如案由、争议焦点等)与法条语义的关联。而且，采用知识表示的方法解决法律场景常见的一对多，多对一的关系，可以提高知识图谱特征表示的能力，从而提高法条预测的准确率。进一步的，所述基于所述法律文本以及预先构建的知识图谱知识层，构建目标知识图谱可以包括：将所述法律文本解析成结构化数据；从所述结构化数据中提取出实体要素数据；将所述实体要素数据链接至所述知识图谱知识层，得到所述目标知识图谱。具体的，可以使用实体识别技术和消歧算法解析法律文本，从而得到结构化的数据，并从结构化的数据中提取出实体要素，最后将实体要素链接至该知识图谱知识层的节点，形成路径，得到创建后的知识图谱。进一步的，在获取待测案件的法律文本之后，还可以包括：对所述法律文本执行预处理操作；将预处理操作后的所述法律文本表示为文本向量；将所述文本向量输入预先构建的文本分类模型，得到模型预测的法条；将所述模型预测的法条也确定为所述待测案件涉及的法条。为了提高法条预测的完整性和准确性，还可以结合文本分类模型的方式对法律文本涉及的法条进行预测。在对法律文本执行数据清洗等预处理操作后，可以将该法律文本表示为文本向量的形式，然后输入文本分类模型。文本分类模型会对输入的文本向量进行分类，确定对应的分类标签，从而得到预测的法条。具体的，所述将预处理操作后的所述法律文本表示为文本向量可以包括：将预处理操作后的所述法律文本进行特征表示，得到第二数据向量；使用预训练的bert模型对预处理操作后的所述法律文本进行编码，映射得到第三数据向量，所述第一数据向量、所述第二数据向量和所述第三数据向量的维度相同；将所述第二数据向量和所述第三数据向量拼接，得到所述文本向量，所述文本向量的维度是所述第二数据向量的维度和所述第三数据向量的维度之和。比如，使用word2vec的方式对法律文本处理后得到的词进行特征表示成512维的向量，然后使用预训练的bert模型对法律文本进行编码，最大输入400长度，编码成512维向量，编码后的结果与使用word2vec的结果拼接成1024维的文本向量。具体的，所述将预处理操作后的所述法律文本表示为文本向量可以包括：将预处理操作后的所述法律文本进行特征表示，得到第四数据向量，所述第四数据向量和所述第一数据向量的维度相同；将所述第四数据向量和所述第一数据向量拼接，得到所述文本向量，所述文本向量的维度是所述第四数据向量的维度和所述第一数据向量的维度之和。具体的，所述将预处理操作后的所述法律文本表示为文本向量可以包括：使用预训练的bert模型对预处理操作后的所述法律文本进行编码，映射得到第五数据向量，所述第五数据向量和所述第一数据向量的维度相同；将所述第五数据向量和所述第一数据向量拼接，得到所述文本向量，所述文本向量的维度是所述第五数据向量的维度和所述第一数据向量的维度之和。比如，使用word2vec的方式对法律文本处理后得到的词进行特征表示成512维的向量，然后跟该第一数据向量(512维)进行拼接，得到一个1024维的文本向量。又或者，使用预训练的bert模型对法律文本进行编码，最大输入400长度，编码成512维向量，编码后的结果跟该第一数据向量进行拼接，同样可以得到一个1024维的文本向量。进一步的，所述将所述文本向量输入预先构建的文本分类模型，得到模型预测的法条可以包括：将所述文本向量分别输入预先构建的svm分类模型、fast-text分类模型以及bert分类模型；通过所述svm分类模型的输出结果得到第一预测法条；使用LR模型对所述fast-text分类模型的输出结果和所述bert分类模型的输出结果进行融合，得到第二预测法条；将所述第一预测法条和所述第二预测法条确定为获得的模型预测的法条。Svm在解决多分类问题时，可以采用一对多或一对一训练多个分类器，此时可能因为不同样本集不同类别的样本占比不同，影响模型的分类效果，故将svm模型的结果单独列出。而Fast-text分类模型和bert分类模型可以输出预测为某种类别的概率，故采用两者预测结果的并集，从而达到相互补充的效果。第二方面，本申请实施例提供了一种基于知识图谱的文本识别装置，包括：法律文本获取模块，用于获取待测案件的法律文本；知识图谱构建模块，用于基于所述法律文本以及预先构建的知识图谱知识层，构建目标知识图谱；第一知识表示模块，用于采用知识表示的方法，将所述目标知识图谱的实体和关系表示为向量的形式，得到第一数据向量；第二知识表示模块，用于采用知识表示的方法，将预设的各个法条文本表示为向量的形式，分别得到各个法条对应的知识表示向量；向量相似度计算模块，用于分别计算所述第一数据向量和每个所述知识表示向量之间的相似度；法条预测模块，用于将所述相似度最高的前设定数量的知识表示向量所对应的法条确定为所述待测案件涉及的法条。第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的基于知识图谱的文本识别方法的步骤。第四方面，本申请实施例提供了一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的文本识别方法，其特征在于，包括：/n获取待测案件的法律文本；/n基于所述法律文本以及预先构建的知识图谱知识层，构建目标知识图谱；/n采用知识表示的方法，将所述目标知识图谱的实体和关系表示为向量的形式，得到第一数据向量；/n采用知识表示的方法，将预设的各个法条文本表示为向量的形式，分别得到各个法条对应的知识表示向量；/n分别计算所述第一数据向量和每个所述知识表示向量之间的相似度；/n将所述相似度最高的前设定数量的知识表示向量所对应的法条确定为所述待测案件涉及的法条。/n

【技术特征摘要】
1.一种基于知识图谱的文本识别方法，其特征在于，包括：
获取待测案件的法律文本；
基于所述法律文本以及预先构建的知识图谱知识层，构建目标知识图谱；
采用知识表示的方法，将所述目标知识图谱的实体和关系表示为向量的形式，得到第一数据向量；
采用知识表示的方法，将预设的各个法条文本表示为向量的形式，分别得到各个法条对应的知识表示向量；
分别计算所述第一数据向量和每个所述知识表示向量之间的相似度；
将所述相似度最高的前设定数量的知识表示向量所对应的法条确定为所述待测案件涉及的法条。

2.如权利要求1所述的文本识别方法，其特征在于，在获取待测案件的法律文本之后，还包括：
对所述法律文本执行预处理操作；
将预处理操作后的所述法律文本表示为文本向量；
将所述文本向量输入预先构建的文本分类模型，得到模型预测的法条；
将所述模型预测的法条也确定为所述待测案件涉及的法条。

3.如权利要求2所述的文本识别方法，其特征在于，所述将预处理操作后的所述法律文本表示为文本向量包括：
将预处理操作后的所述法律文本进行特征表示，得到第二数据向量；
使用预训练的bert模型对预处理操作后的所述法律文本进行编码，映射得到第三数据向量，所述第一数据向量、所述第二数据向量和所述第三数据向量的维度相同；
将所述第二数据向量和所述第三数据向量拼接，得到所述文本向量，所述文本向量的维度是所述第二数据向量的维度和所述第三数据向量的维度之和。

4.如权利要求2所述的文本识别方法，其特征在于，所述将预处理操作后的所述法律文本表示为文本向量包括：
将预处理操作后的所述法律文本进行特征表示，得到第四数据向量，所述第四数据向量和所述第一数据向量的维度相同；
将所述第四数据向量和所述第一数据向量拼接，得到所述文本向量，所述文本向量的维度是所述第四数据向量的维度和所述第一数据向量的维度之和。

5.如权利要求2所述的文本识别方法，其特征在于，所述将预处理操作后的所述法律文本表示为文本向量包括：
使用预训练的bert模型对预处理操作后的所述法律文本进行编码，映射得到第五数据向量，所述第五数据向量和所述第一数据向量的维度相同；
将所述第五数据向量和所述第一...

【专利技术属性】
技术研发人员：赵琪，
申请(专利权)人：平安直通咨询有限公司上海分公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人