一种面向地质智能问答的数据自动化序列标注识别方法技术

技术编号：26342584 阅读：12 留言：0更新日期：2020-11-13 20:35

本发明专利技术涉及信息技术领域，提出了一种面向地质智能问答的数据自动化序列标注识别方法。本发明专利技术旨在金矿数据的智能问答过程中实现用户问答交互效果的准确性。主要方案包括，对金矿文献图谱数据进行整理、清洗，得到批量文献数据；针对文献数据使用BIOES标签进行字符数据的机器自动化标注得到金矿数据标注结果并采用深度学习进行输入训练，得到金矿文献数据的训练结果；将文献数据的训练结果应用于用户询问语句识别，得到用户询问语句的标注结果，然后进行属性分类，得到用户询问语句的分类；将标注结果与分类通过集合进行组合封装，得到用户询问语句中金矿数据的标注与询问语句语义属性的结果并映射到金矿知识图谱，得到用户询问知识结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向地质智能问答的数据自动化序列标注识别方法
本专利技术涉及深度学习知识挖掘过程中的知识图谱应用
，提出了一种实现智能问答平台的金矿数据自动化序列标注方法。
技术介绍
当前，智能问答服务作为人工智能发展阶段的重要应用，其相比于传统的规则匹配与共现检索匹配具有较大的认知能力。在实现过程中首先通过引入知识图谱实现知识的概念及关系关联，然后在用户问答过程中使用深度学习的自动化序列标注方法进行领域识别及意图识别，进而实现智能问答平台。目前，针对问答系统的实现多依赖于正则模板匹配、Elasricsearch的检索匹配，且在通用领域的问答较多，同时由于缺乏深入的语义知识解析，导致在特定领域实现智能问答服务具有挑战性。现有问答系统在处理中文文本时，一般通过分词技术将句子转化为词的表示，然后通过语义相似度计算(编辑距离、TFIDF的向量余弦相似度)进行语句的知识库匹配进而实现用户的询问回复。其中分词技术包括基于规则词典匹配、基于统计机器学习与基于深度学习三个发展阶段。基于规则词典匹配包括正向最大匹配、逆向最大匹配双向最大匹配；基于统计机器学习包括n元语言模型、最大熵模型及条件随机场等；随着web2.0向web3.0迈进阶段产生的海量数据信息，基于深度学习的分词方法不断兴起，其包括卷积神经网络、循环神经网络及长短时记忆网络及与条件随机场相结合的方式等，其在识别过程中采用的标签方式为BIO或者BIOES标签。现有标注方法的缺点：(1)对于金矿知识挖掘发现过程中，大量数据信息的人工处理耗时耗力，且处理效率...

【技术保护点】
1.一种面向地质智能问答的数据自动化序列标注识别方法，其特征在于：包括以下步骤：/n步骤1：对金矿文献图谱数据进行整理，得到领域实体分类描述标签(包含实体)，作为领域知识实体识别的标注标签；/n步骤2：对文献数据内容进行机器自动清洗，包括过滤英文字母、标点符号及无意义符号，得到有效中文文本内容；/n步骤3：对清洗后的文本内容以单独的txt文件存放，得到批量文献数据的存放根路径；/n步骤4：针对步骤3中得到的文献数据使用BIOES标签进行字符数据的机器自动化标注，这里结合整理的图谱实体分类描述数据进行标签组合，得到由B、I、O、E、S开头的金矿数据标注结果；/n步骤5：采用深度学习中双向LSTM的模型与条件随机场CRF结合方式对步骤4金矿数据标注结果字符序列数据进行输入训练，通过调整LSTM模型中记忆细胞的结构及整体参数，加入整理的金矿图谱实体数据，得到金矿文献数据的训练结果；/n步骤6：将文献数据的训练结果应用于平台用户询问语句识别，得到用户询问语句的标注结果；/n步骤7：将用户询问语句的内容减去模型对于用户语句中金矿数据的识别内容，得到的剩余语句输入到卷积神经网络进行属性分类，得到用...

【技术特征摘要】
1.一种面向地质智能问答的数据自动化序列标注识别方法，其特征在于：包括以下步骤：
步骤1：对金矿文献图谱数据进行整理，得到领域实体分类描述标签(包含实体)，作为领域知识实体识别的标注标签；
步骤2：对文献数据内容进行机器自动清洗，包括过滤英文字母、标点符号及无意义符号，得到有效中文文本内容；
步骤3：对清洗后的文本内容以单独的txt文件存放，得到批量文献数据的存放根路径；
步骤4：针对步骤3中得到的文献数据使用BIOES标签进行字符数据的机器自动化标注，这里结合整理的图谱实体分类描述数据进行标签组合，得到由B、I、O、E、S开头的金矿数据标注结果；
步骤5：采用深度学习中双向LSTM的模型与条件随机场CRF结合方式对步骤4金矿数据标注结果字符序列数据进行输入训练，通过调整LSTM模型中记忆细胞的结构及整体参数，加入整理的金矿图谱实体数据，得到金矿文献数据的训练结果；
步骤6：将文献数据的训练结果应用于平台用户询问语句识别，得到用户询问语句的标注结果；
步骤7：将用户询问语句的内容减去模型对于用户语句中金矿数据的识别内容，得到的剩余语句输入到卷积神经网络进行属性分类，得到用户询问语句的分类；
步骤8：将金矿数据识别结果与用户询问语句的分类通过Map集合进行组合封装，得到用户询问语句中金矿数据的标注与询问语句语义属性的结果；
步骤9：将步骤8中的金矿数据的标注与询问语句语义属性的结果映射到金矿知识图谱，得到用户询问知识结果，进而实现智能问答。

2.根据权利要求1所述的一种面向地质智能问答的数据自动化序列标注识别方法，其特征在于，对金矿文献图谱数据进行整理包括：<...

【专利技术属性】
技术研发人员：贺金龙，付立军，黄徐胜，唐珂珂，朱月琴，刘晓娟，
申请(专利权)人：付立军，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人