当前所在位置: 首页 > 生活常识

一种基于多学科分类的中文学术知识图谱构建方法技术

2025-03-15 本站作者 【 字体:

本申请涉及一种基于多学科分类的中文学术知识图谱构建方法。该方法包括:获取多来源的初始中文文献数据,其中包括论文题目、作者、单位、摘要、发表载体、时间、单一类别等基本信息,生成初始文献数据集;设计领域与学科间类别映射,提取部分初始文献数据集中的数据进行初步映射,生成单学科分类的学术文献数据集;将所述单学科分类的学术文献数据集输入预设学科分类模型,完成学科分类模型训练,生成学科分类模型;将初始文献数据集输入完成训练的学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集;通过预设本体模型和预设关系抽取模型,对所述多学科分类的文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱。通过本申请的方法,解决了学术资源庞杂混乱,存储、检索困难,学术论文领域划分混乱,缺少多学科支持的问题。科支持的问题。科支持的问题。

全部详细技术资料下载

【技术实现步骤摘要】

一种基于多学科分类的中文学术知识图谱构建方法

[0001]本专利技术涉及学术知识图谱

,特别是涉及一种基于预训练语言模型和文本分类模型的多学科分类的中文学术知识图谱构建方法。

技术介绍

[0002]随着大数据时代的到来,互联网上海量的学术资源虽然充分满足了科研人员对于学术信息的需求,但是也给科研人员带来了严重的信息过载压力。以往的学术知识存储与检索通常是通过关系型数据库来完成,需要预先设计关系模型,这种方法的优点是符合行、列设计贴合逻辑世界,易于理解,支持ACID特性,一致性表现好,缺点是在更新数据时按照预设模型准备数据,限制较多,导致关系型数据库的扩展性较差,不支持分词能力,文本检索功能弱。而在做学术数据分析时,往往涉及数据更新、模糊查询等,由于关系型数据库对横向扩展、模糊查询的支持较弱,所以并不能完全满足学术数据分析要求。知识图谱的出现,解决了关系型数据库扩展性差、文本检索功能弱的问题,它以节点和边的方式描述数据及其之间的关系,没有特定的关系模型对数据做出限制,自然地表达了现实世界事物之间的关系,可以高效的插入任何类型的数据,对于文本模糊查询、关联查询都提供了很好的支持,很适合用来存储和检索学术数据。

[0003]所有学术文献都有其所属的

,一是由于近年来学科间出现交叉融合的趋势,导致学术文献以不再单独属于某个

,目前对学术文献的单领域划分已不再合适;二是目前

的划分既繁杂又混乱,不断有新的领域出现或消失,领域划分及其不稳定。专业学科是一个相对稳定的文献划分方式,所有

均可由单个学科或多个学科交叉、融合形成,因此学术文献的多学科分类更利于学术发展。预训练语言模型和文本分类技术,从海量的语料中可以学习通用的语言表示并利用神经网络进行文本分类,在准确度上已经接近人类水平,使得海量文献数据的多学科划分成为可能。

[0004]构建多学科分类的学术知识图谱既有利于学术资源的整合与应用,又促进学术知识的融合与交叉。

技术实现思路

[0005]本申请提出一种基于多学科分类的中文学术知识图谱构建方法,以解决学术资源庞杂混乱,存储、检索困难,学术论文领域划分混乱,缺少多学科支持的问题。

[0006]本申请提供了一种多学科分类的中文学术知识图谱的构建方法,所述构建步骤包括:

[0007]步骤S101,获取多来源的初始中文文献数据,其中包括论文题目、作者、单位、摘要、发表载体、时间、领域等基本信息,生成初始文献数据集;

[0008]步骤S102,设计领域与学科间类别映射,提取部分初始文献数据集中的数据进行初步映射,生成单学科分类的学术文献数据集;

[0009]步骤S103,将所述单学科分类的学术文献数据集输入预设学科分类模型进行训

练,生成学科分类模型;

[0010]步骤S104,将初始文献数据集输入学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集;

[0011]步骤S105,通过预设本体模型和预设关系抽取模型,对所述多学科分类的文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱。

[0012]在步骤S101中获取多来源的初始中文文献数据,生成初始文献数据集包括:通过selenium数据采集工具获取多来源的初始中文文献数据;获取多个来源的类别信息建立类别url集合;依次遍历所述类别url集合中的类别url,获取所述类别url下的所有中文文献url,建立文献url集合;依次遍历所述文献url集合中的文献url,解析所述词条url的页面结构提取初始中文文献的公开信息,整理生成初始文献数据集。

[0013]在步骤S102中,设计领域与学科间类别映射,提取部分初始文献数据集中的数据进行初步映射,生成单学科分类的学术文献数据集包括:将多个来源的原始领域信息分别映射到对应的学科类别,抽取部分初始文献数据集中的数据,根据得到的类别映射,重新划分学科,生成单学科分类的学术文献数据集,用于学科分类模型的训练。

[0014]在步骤S103中,将单学科分类的学术文献数据集输入预设学科分类模型进行训练,生成学科分类模型包括:将单学科分类的学术文献数据集分成若干大小相等的batch,输入预训练语言模型得到句子的向量表示,将句子的向量表示输入文本分类模型和一个激活函数中得到分类结果,再通过反向传播算法更新模型参数,经过若干个epoch的训练后,生成学科分类模型。

[0015]在步骤S104中,将初始文献数据集输入学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集包括:对于初始文献数据集中每一个文献数据:一、首先将数据中的摘要按标点符号进行分句处理;二、将处理好的每一个分句分别输入到上述学科分类模型中,得到分句的学科分类;三、多对个分句学科分类进行堆叠集成,得到所属文献的多学科分类;四、最后整理数据集中的所有完成多学科分类数据,生成多学科分类的文献数据集。

[0016]在步骤S105中,通过预设本体模型和预设实体关系抽取模型,对所述多学科分类的文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱包括:通过基于规则的关系抽取模型,对所述多学科分类的文献数据集进行实体关系抽取;根据预设本体模型和实体关系抽取结果,生成三元组数据,其中所述三元组数据的类型包括<实体,关系,实体>和<实体,属性,属性值>;整合三元组数据构建多学科分类的中文学术知识图谱。

[0017]在构建多学科分类的学术知识图谱后,方法包括:将知识图谱中的三元组数据转换成RDF格式存储到Apache Jena提供的TDB2数据库中;在学术知识图谱展示时,通过SPARQL查询获取TDB2数据库中对应的三元组数据,将三元组数据转化成RDF格式的文件;利用所述转化后的RDF文件对web页面进行渲染,完成学术知识图谱的可视化展示。

[0018]本申请提供了一种基于多学科分类的中文学术知识图谱构建方法,通过获取多来源的初始中文文献数据,其中包括论文题目、作者、单位、摘要、发表载体、时间、领域等基本信息,生成初始文献数据集;设计领域与学科间类别映射,提取部分初始文献数据集中的数据进行初步映射,映射到相应的学科中,生成单学科分类的学术文献数据集;将单学科分类

的学术文献数据集输入预设学科分类模型,生成学科分类模型,将初始文献数据集输入完成训练的学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集;通过预设本体模型与实体和关系抽取模型,对多学科分类文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱,解决了学术资源庞杂混乱,存储、检索困难,学术论文领域划分混乱,缺少多学科支持的问题。

附图说明

[0019]后文将参照附图以示例性而非限制性的方式详细描述本专利技术的一些具体实施例。附图中以流程图和示意图的形式介绍了本方法的步骤流程及主要算法。本领域技术人员应该理解,这些

【技术保护点】

【技术特征摘要】

1.一种基于多学科分类的中文学术知识图谱构建方法,其特征在于包括以下步骤:步骤S101,获取多来源的初始中文文献数据,其中包括论文题目、作者、单位、摘要、发表载体、时间、领域等基本信息,生成初始文献数据集;步骤S102,设计领域与学科间类别映射,提取部分初始文献数据集中的数据进行初步映射,生成单学科分类的学术文献数据集;步骤S103,将所述单学科分类的学术文献数据集输入预设学科分类模型,完成学科分类模型训练,生成学科分类模型;步骤S104,将初始文献数据集输入完成训练的学科分类模型,完成初始文献数据集的多学科分类,生成多学科分类的文献数据集;步骤S105,通过预设本体模型和预设关系抽取模型,对所述多学科分类的文献数据集进行实体和关系抽取,生成三元组数据,构建多学科分类的中文学术知识图谱。2.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法,其特征在于步骤S102中生成单学科分类的学术文献数据集的具体方法为:对所获去的初始文献数据集中的每篇文献,在步骤S101中所述数据类别中均有领域类别,这是依据中国图书馆分类法进行领域划分,将中国图书馆分类法的所有领域依据预设规则映射到教育部公布的相应一级学科中;具体规则包括,最大领域匹配原则、舍弃多学科交叉领域文献、合并高匹配度学科等;然后将初始文献数据集的领域类别删除,增加学科类别,将每篇文献均划分到映射后的学科类别中,完成初始文献数据集的单学科划分,生成单学科分类的学术文献数据集。3.根据权利要求1所述的一种基于多学科分类的中文学术知识图谱构建方法,其特征在于步骤S103中将单学科分类的学术文献数据集输入预设学科分类模型进行训练,生成学科分类模型的具体方法为:将单学科分类的学术文献数据集中的文献的文献摘要输入到预训练语言模...

【专利技术属性】

技术研发人员:周锋,乔雷,

申请(专利权)人:北京邮电大学,

类型:发明

国别省市:

全部详细技术资料下载 我是这个专利的主人

阅读全文
本站访客:83460
1097476955
服务热线

服务热线

18951535724

18951535724
返回顶部