【07.05】“致知论坛:高能物理计算技术”第六期活动
报告题目:基于大语言模型的天文文献知识实体抽取方法研究
报告人:樊东卫 副研究员
主持人:胡皓 高级工程师
报告时间: 2024年7月5日(周五) 14:00
地点:计算中心二楼202会议室
报告人介绍:樊东卫 国家天文台副研究员,硕导,负责国家天文科学数据中心技术研发工作,主要从事天文数据融合、天文信息技术、虚拟天文台等领域相关研究
摘要:随着新一代高分辨率望远镜的投入使用以及一系列巡天计划的推进,天文学领域获取到了前所未有的大规模数据。天文数据的不断涌现同样促进了天文文献数量的持续攀升,这些文献是科研人员开展研究工作不可或缺的资源。然而,目前天文数据与文献之间关联程度较低,给天文研究人员搜集天体相关信息带来了很多不便。诸如天体标识符、望远镜名称等天文知识实体作为天文数据与文献的关键纽带,是实现天文数据与文献关联融合的基本要素。准确、快速抽取天文知识实体对于天文学研究具有重要意义。传统知识实体抽取方法在处理大规模、复杂天文文献时存在诸多局限性,例如处理周期长、识别实体边界困难、泛化能力差等。大语言模型的出现,为诸多领域自然语言处理任务带来了新的机遇。本报告将介绍如何利用大语言模型来克服传统实体抽取方法的局限,更高效地完成天文文献中的天文知识实体抽取任务,以实现天文数据与文献之间快速的关联融合。
附件下载: