System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于词句向量在线标注保单条款查看方法、装置及系统制造方法及图纸_技高网

一种基于词句向量在线标注保单条款查看方法、装置及系统制造方法及图纸

技术编号:41279323 阅读:4 留言:0更新日期:2024-05-11 09:30
本发明专利技术涉及自然语言处理技术领域,具体为一种基于词句向量在线标注保单条款查看方法、装置及系统,包括以下步骤:基于原始保单条款文本,采用文本预处理算法,进行包括中文分词、去除停用词、词义消歧的预处理工作,并转换为用于机器学习模型处理的格式,生成预处理文本。本发明专利技术中,采用文本预处理和BERT嵌入算法提高文本分析的深度,确保文本向量化表示的高质量,从而能够准确捕捉到条款中的深层语义特征,K‑均值聚类方法自动化地对条款进行分类,提高数据结构清晰度,并为后续检索提供便利,TF‑IDF方法的应用增强关键术语提取的精确度,为用户检索提供高效的索引,自注意力机制的编码‑解码模型进一步提炼出条款的核心内容,简化用户的阅读负担。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,尤其涉及一种基于词句向量在线标注保单条款查看方法、装置及系统


技术介绍

1、自然语言处理是计算机科学和人工智能领域中关注计算机和人类(自然)语言之间相互作用的一个重要方向。这一领域的目标是研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。其研究任务包括词性标注、命名实体识别、语义角色标注、机器翻译、自动问答、情感分析、文本摘要、文本分类、关系抽取等。

2、基于词句向量在线标注保单条款查看方法属于这个
,利用了词向量模型来理解和生成自然语言。词向量模型是一种将词汇表达为实数向量的技术,用于捕获词汇之间的语义和语法关系。特别是在处理自然语言任务时,词向量模型能够有效地进行词语或短语的向量化表示,从而大大提高了自然语言处理任务的性能。

3、在现有方法中,缺乏有效的文本预处理工作,常常导致文本分析的不准确和表面化,无法深入挖掘语义特征,影响了后续操作的效率和准确性。未采用先进的文本嵌入技术,导致无法有效地将文本转换为机器可处理的向量形式,难以捕捉文本的深层次含义。此外,手动分类保单条款费时费力,易出错,并且关键词的提取和索引建立通常不够精确,使得检索效率低下。编码-解码模型若缺乏自注意力机制,将难以准确提取文本的核心意义,导致用户需要阅读大量不必要的内容。


技术实现思路

1、本专利技术的目的是解决现有技术中存在的缺点,而提出的一种基于词句向量在线标注保单条款查看方法、装置及系统。

2、为了实现上述目的,本专利技术采用了如下技术方案:一种基于词句向量在线标注保单条款查看方法,包括以下步骤:

3、s1:基于原始保单条款文本,采用文本预处理算法,进行包括中文分词、去除停用词、词义消歧的预处理工作,并转换为用于机器学习模型处理的格式,生成预处理文本;

4、s2:基于所述预处理文本,采用bert嵌入算法,进行文本的向量化表示,并提取文本的深层语义特征,生成语义嵌入向量;

5、s3:基于所述语义嵌入向量,采用k-均值聚类方法,进行保单条款的自动分组,依据向量空间中的距离划分同类条款,并生成条款分类标签;

6、s4:基于所述条款分类标签,采用tf-idf提取方法,抽取多类别中的关键术语,并为后续检索和摘要生成建立索引,生成关键词索引;

7、s5:基于所述关键词索引,采用带有自注意力机制的编码-解码模型,提炼条款的核心内容,并生成条款摘要;

8、s6:将所述条款摘要融合到原保单文本中,采用强化学习布局优化算法,优化信息展示效率和用户界面的互动体验,并生成用户界面;

9、所述语义嵌入向量包括文本中每个词的上下文关联向量表示,所述条款分类标签具体为对同类保单条款的集合命名的标识,所述关键词索引具体指为每个类别的条款集合建立关键术语集,所述用户界面具体为用户通过网页或应用程序查阅、结构化展示保单条款和摘要的界面。

10、作为本专利技术的进一步方案,基于原始保单条款文本,采用文本预处理算法,进行包括中文分词、去除停用词、词义消歧的预处理工作,并转换为用于机器学习模型处理的格式,生成预处理文本的步骤具体为:

11、s101:基于原始保单条款文本,采用结巴分词算法,进行文本分词,并进行切词后内容组织,生成分词结果文本;

12、s102:基于所述分词结果文本,采用停用词表,对分词结果进行停用词去除,并进行去除停用词后内容重组,生成去停用词文本;

13、s103:基于所述去停用词文本,采用基于上下文的词义消歧算法,对文本中的多义词进行消歧处理,并进行消歧后内容重组,生成词义消歧文本;

14、s104:基于所述词义消歧文本,采用词袋模型,进行文本标记化,并进行机器学习模型兼容格式转换,生成预处理文本;

15、所述结巴分词算法具体为基于前缀词典进行词图扫描,所述停用词表具体为常出现但对于文本特点分析无关键作用的词,所述基于上下文的词义消歧算法具体为依据词汇的上下文信息分析其含义,所述词袋模型用于将文本转换为标记化向量表示。

16、作为本专利技术的进一步方案,基于所述预处理文本,采用bert嵌入算法,进行文本的向量化表示,并提取文本的深层语义特征,生成语义嵌入向量的步骤具体为:

17、s201:基于所述预处理文本,采用bert预训练模型,进行文本初始嵌入,并进行bert嵌入后内容重组,生成bert初始嵌入表示;

18、s202:基于所述bert初始嵌入表示,采用梯度下降方法,进行模型微调,并进行优化后参数获取,生成微调后的bert表示;

19、s203:基于所述微调后的bert表示,采用bert特性提取方法,提取序列输出,并进行向量序列化处理,生成序列向量表示;

20、s204:基于所述序列向量表示,采用叠加平均法,进行固定长度的向量表示获取,并进行语义数据压缩,生成语义嵌入向量;

21、所述bert预训练模型依靠深度双向transformer编码器输出文本向量表达信息,所述梯度下降方法包括随机梯度下降、小批量梯度下降和批量梯度下降,用于优化模型的权重,所述bert特性提取方法包括最后一层的输出、所有层输出的加权平均或最后四层输出的连接方式,获取词或字的向量表示,所述叠加平均法具体指取最后几层输出的加权平均值或连接,用于获得整个句子或文本片段的向量表示。

22、作为本专利技术的进一步方案,基于所述语义嵌入向量,采用k-均值聚类方法,进行保单条款的自动分组,依据向量空间中的距离划分同类条款,并生成条款分类标签的步骤具体为:

23、s301:基于语义嵌入向量,采用k-均值聚类算法,通过计算向量间的欧氏距离,将保单条款归类到k个集群中,生成聚类标签;

24、s302:基于所述聚类标签,进行迭代优化,使用肘部法则确定最优的k值,划分差异化的条款集群,确定最优集群数量;

25、s303:再次运行k-均值聚类算法,基于所述最优集群数量,对保单条款进行分类,获得细化聚类标签;

26、s304:对每个集群进行分析,基于所述细化聚类标签,利用质心计算方法,提取每个集群的中心点特征,确定条款的分类,获取条款分类标签;

27、所述k-均值聚类算法具体为在向量空间中随机选择k个初始聚类中心,迭代更新样本点的聚类归属,直至收敛于最优聚类,所述欧氏距离通过计算向量之间的空间距离来度量条款之间的相似性,所述肘部法则具体为通过绘制差异化k值下聚类模型的误差平方和,找到肘部点对应的k值,作为最优集群数量,所述质心计算方法具体为计算每个聚类中所有样本点的均值向量作为该聚类的质心。

28、作为本专利技术的进一步方案,基于所述条款分类标签,采用tf-idf提取方法,抽取多类别中的关键术语,并为后续检索和摘要生成建立索引,生成关键词索引的步骤具体为:

29、s401:基于所述条款分类标签,采用tf-idf提取方法,提取每本文档来自技高网...

【技术保护点】

1.一种基于词句向量在线标注保单条款查看方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于原始保单条款文本,采用文本预处理算法,进行包括中文分词、去除停用词、词义消歧的预处理工作,并转换为用于机器学习模型处理的格式,生成预处理文本的步骤具体为:

3.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于所述预处理文本,采用BERT嵌入算法,进行文本的向量化表示,并提取文本的深层语义特征,生成语义嵌入向量的步骤具体为:

4.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于所述语义嵌入向量,采用K-均值聚类方法,进行保单条款的自动分组,依据向量空间中的距离划分同类条款,并生成条款分类标签的步骤具体为:

5.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于所述条款分类标签,采用TF-IDF提取方法,抽取多类别中的关键术语,并为后续检索和摘要生成建立索引,生成关键词索引的步骤具体为:

6.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于所述关键词索引,采用带有自注意力机制的编码-解码模型,提炼条款的核心内容,并生成条款摘要的步骤具体为:

7.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,将所述条款摘要融合到原保单文本中,采用强化学习布局优化算法,优化信息展示效率和用户界面的互动体验,并生成用户界面的步骤具体为:

8.一种基于词句向量在线标注保单条款查看装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于词句向量在线标注保单条款查看方法的步骤。

9.一种基于词句向量在线标注保单条款查看系统,其特征在于,所述基于词句向量在线标注保单条款查看系统用于执行权利要求1-7任一项所述的基于词句向量在线标注保单条款查看方法,所述基于词句向量在线标注保单条款查看系统包括预处理模块、嵌入表示模块、聚类标注模块、关键词处理模块、用户交互模块;

10.根据权利要求9所述的基于词句向量在线标注保单条款查看系统,其特征在于,所述预处理模块包括文本分词子模块、停用词处理子模块、词义消歧子模块、文本标记化子模块;

...

【技术特征摘要】

1.一种基于词句向量在线标注保单条款查看方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于原始保单条款文本,采用文本预处理算法,进行包括中文分词、去除停用词、词义消歧的预处理工作,并转换为用于机器学习模型处理的格式,生成预处理文本的步骤具体为:

3.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于所述预处理文本,采用bert嵌入算法,进行文本的向量化表示,并提取文本的深层语义特征,生成语义嵌入向量的步骤具体为:

4.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于所述语义嵌入向量,采用k-均值聚类方法,进行保单条款的自动分组,依据向量空间中的距离划分同类条款,并生成条款分类标签的步骤具体为:

5.根据权利要求1所述的基于词句向量在线标注保单条款查看方法,其特征在于,基于所述条款分类标签,采用tf-idf提取方法,抽取多类别中的关键术语,并为后续检索和摘要生成建立索引,生成关键词索引的步骤具体为:

6.根据权利要求1所述的基于词句向量在线标注保单条款查看...

【专利技术属性】
技术研发人员:张博徐伟男周明强
申请(专利权)人:上海商保通健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1