一种文本抽取的方法及装置制造方法及图纸

技术编号：41130123 阅读：19 留言：0更新日期：2024-04-30 17:59

本发明专利技术提供了一种文本抽取的方法和装置，其中，该方法包括：根据预设规则对待抽取文本进行拆分和组合，得到多个组合句；将所述多个组合句输入语义相似度模型，得到所述多个组合句的向量表示，其中，所述语义相似度模型在训练阶段的损失函数中通过余弦相似度确定每两个句子的相似性；根据所述多个组合句的向量表示和目标句的向量表示确定所述多个组合句的余弦相似度；将所述多个组合句的余弦相似度大于预设阈值的组合句作为抽取结果,解决了相关技术中在模型训练阶段和预测阶段中计算相似性方式不一致而导致抽取结果不够精准的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，具体而言，涉及一种文本抽取的方法及装置。

技术介绍

1、在文本抽取任务中，语义相似度计算是最重要且技术含量最高的工作之一。业务侧通常会提供一批文本和一批目标句子，要求技术人员从这批文本中抽取出与这批目标句子相似的句子。为了衡量相似度，需要使用语义相似度模型。目前，业界主要采用两种方法来计算语义相似度：交叉编码器cross-encoder和双向编码器bi-encoder。

2、cross-encoder方法在计算语义相似度时，需要将两个句子拼接在一起并输入给模型。例如，对于10000个句子两两计算相似度，需要进行约五千万次模型计算，一台机器需要执行65小时才能完成计算。因此，在工业界，bi-encoder模型在计算语义相似度方面更为常用。

3、bi-encoder模型分为有监督模型(如来自变换器的句子双向编码器表示模型(sentence-bidirectional encoder representations from transformers，简称sbert))和无监督模型(如具有共...

【技术保护点】

1.一种文本抽取的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语义相似度模型在训练阶段通过以下步骤对模型进行训练：

3.根据权利要求1所述的方法，其特征在于，根据预设规则对待抽取文本进行拆分和组合，得到多个组合句包括：

4.根据权利要求3所述的方法，其特征在于，根据第一预设字符对所述待抽取文本进行拆分得到多个最小句包括：

5.根据权利要求4所述的方法，其特征在于，根据第二预设字符对待抽取文本的段落进行拆分，得到一个或多个所述原始句之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述语...

【技术特征摘要】

1.一种文本抽取的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语义相似度模型在训练阶段通过以下步骤对模型进行训练：

3.根据权利要求1所述的方法，其特征在于，根据预设规则对待抽取文本进行拆分和组合，得到多个组合句包括：

4.根据权利要求3所述的方法，其特征在于，根据第一预设字符对所述待抽取文本进行拆分得到多个最小句包括：

5.根据权利要求4所述的方法，其特征在于，根据第二预设字符对待抽取文本的段落进行拆分，得到一个或多个所述原始句之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述语义相似度模型在训练阶段通过以下步骤确定损失函数的损...

【专利技术属性】
技术研发人员：石聪，张彬，黄彪，王田利，贾亚璐，张高伟，
申请(专利权)人：中国光大银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人