连接词的识别配置方法、装置、计算机设备及介质制造方法及图纸

技术编号：37547517 阅读：14 留言：0更新日期：2023-05-12 16:22

本公开涉及词语识别领域，特别是涉及到一种连接词的识别配置方法、装置、计算机设备及存储介质，所述方法包括：获取文章信息；对所述文章信息进行分割，得到所述文章信息包含的段落信息；获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息；将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词，生成样本段落信息；将所述样本段落信息输入至预训练的连接词识别模型，获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值；根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词。本公开能够提高篇章连接词的识别准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
连接词的识别配置方法、装置、计算机设备及介质

[0001]本公开涉及到词语识别领域，特别是涉及到一种连接词的识别配置方法、装置、计算机设备及存储介质。

技术介绍

[0002]连接词可以用来连接句子中的不同部分，段落中的不同句子，篇章中的不同段落，从而表达递进，转折，时序，强调，因果等逻辑关系，现有的连接词预测方法，仅仅通过建模相邻两句来预测，导致连接词预测效果不佳，准确度较低。

技术实现思路

[0003]本公开的主要目的为提供一种连接词的识别配置方法、装置、计算机设备及存储介质，旨在解决目前文章连接词的识别准确度低的问题。
[0004]为了实现上述专利技术目的，本公开提出一种连接词的识别配置方法，包括：
[0005]获取文章信息；
[0006]对所述文章信息进行分割，得到所述文章信息包含的段落信息；
[0007]获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息；
[0008]将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词，生成样本段落信息；
[0009]将所述样本段落信息输入至预训练的连接词识别模型，获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值；
[0010]根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词。
[0011]本公开还提供一种连接词的识别配置装置，包括：
[0012]数据获取模块，用于获取文章信息；
[0013]段落分割模块，用于对所述文章信息...

【技术保护点】

【技术特征摘要】
1.一种连接词的识别配置方法，其中，包括：获取文章信息；对所述文章信息进行分割，得到所述文章信息包含的段落信息；获取所述段落信息中的第一句子与第二句子的原始连接词的位置信息；将所述段落信息中所述位置信息对应的原始连接词转化为预设格式的识别词，生成样本段落信息；将所述样本段落信息输入至预训练的连接词识别模型，获取所述连接词识别模型输出的与所述识别词相匹配的待选连接词的概率值；根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词。2.根据权利要求1所述的连接词的识别配置方法，其中，所述预训练的连接词识别模型通过如下步骤训练，包括：获取连接词识别模型的训练语料；将所述训练语料中的句间连接词转化为预设格式的待定连接词，生成训练样本集；将所述训练样本集输入至连接词识别模型进行分类识别，得到待定连接词的概率；获取待训练参数，并使用交叉熵损失函数对待训练参数与所述待定连接词的概率进行计算，得到损失值；对所述待训练参数进行迭代训练直至所述损失值最小化，得到目标训练参数，基于所述目标训练参数得到预训练的连接词识别模型。3.根据权利要求2所述的连接词的识别配置方法，其中，所述将所述训练语料中的句间连接词转化为预设格式的待定连接词，生成训练样本集，包括：若所述句间连接词存在于连接词库中，将所述句间连接词转化为第一格式的待定连接词，生成第一训练样本集；若所述句间连接词不存在于连接词库中，将所述句间连接词转化为第二格式的待定连接词，生成第二训练样本集。4.根据权利要求1所述的连接词的识别配置方法，其中，所述根据所述概率值从所述待选连接词中确定所述识别词对应的目标连接词之后，还包括：比较所述原始连接词与所述目标连接词是否一致，得到比较结果；统计所述比较结果，输出所述文章信息的所述原始连接词的准确...

【专利技术属性】
技术研发人员：刘旺旺，
申请(专利权)人：广州视源人工智能创新研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人