【09.24】“青年科技工作者园地”举行第161次活动：基于大语言模型的开源威胁情报获取、基于微调大模型的BESIII文献知识抽取方法研究--中国科学院高能物理研究所

学术活动

您当前的位置：首页 > 新闻动态 > 学术活动

【09.24】“青年科技工作者园地”举行第161次活动：基于大语言模型的开源威胁情报获取、基于微调大模型的BESIII文献知识抽取方法研究

文章来源： 2024-09-23

【大】【中】【小】

“青年科技工作者园地”举行第161次活动

时间：2024年9月24日(本周二) 下午 2:30

地点：二楼会议室（东莞同事和同学通过视频）

主持人：张正德老师

ZOOM会议信息：83936709104/422157

报告人：苑新阳

报告题目：基于大语言模型的开源威胁情报获取

报告简介：网络安全威胁情报获取是开展安全防御工作中的关键任务。最近，大语言模型技术的进步展现了其在自然语言处理和理解上的强大能力，同时也为威胁情报的获取提供了一种新的思路。本报告提出了一种基于LLMs的威胁情报获取方法，无需人工扫描工具或查询相关的网站和平台就能够基于用户需求自主获取威胁情报，节省了大量的时间和人力成本。进一步的，为了解决大语言模型在处理威胁情报时存在的知识局限性和时效性障碍，我们结合思维链技术提出了一种框架，帮助大语言模型使用工具来获取OSINT。基于上述框架，我们构建了一个用于获取开源情报的Agent，它能够将逻辑推理问题分解为多个步骤，并使用工具逐步解决。同时，我们还开发了供Agent动态调用以解决问题的工具箱。为了验证该框架的有效性，我们设计了一组测试数据集，并通过四个评估指标测试Agent的性能。实验结果表明Agent在获取OSINT时均取得了较高的准确率，且在特定情报获取问题上的准确率相比与其对应的基座大语言模型取得了大幅度提升。

报告人：刘媛媛

报告题目：基于微调大模型的BESIII文献知识抽取方法研究

报告简介：大型通用磁谱仪BESIII是高能物理领域的粒子物理大科学装置，是世界上最先进的研究粲物理的设施。研究赛博士科研智能体智能化完成BESIII实验相关的物理分析任务的过程中，还需重点解决大语言模型缺少BESIII实验知识而存在的幻觉现象。知识图谱的事实性、时效性和逻辑严谨性使其成为大语言模型的绝佳能力补充。

此报告主要分享基于BESIII文献进行知识抽取构建知识图谱的方法。通过对BESIII文献知识图谱的知识建模，定义数据的关系框架；基于高能物理领域的高能·溪悟大语言模型进行二次预训练和微调，得到BESIII知识抽取大模型；针对不同的文档内容，两阶段完成知识抽取任务，最后设计提示策略和自我增强阶段，指导BESIII知识抽取大模型更有效地完成知识抽取任务。

知识抽取是构建知识图谱中的一大核心环节，本方法能显著提升知识抽取的高效性和准确性，有利于加速知识图谱构建流程的持续迭代演进。最终，将BESIII实验知识图谱应用至赛博士科研智能体，有望提升其物理分析逻辑推理能力和自我反思减少幻觉能力，从知识中发现规律，产生新认知，加速科学发现。

附件下载：

首页

单位概况

组织机构

研究平台

科研成果

人才队伍

研究生教育

党群园地

科学传播

信息公开

国际交流

合作交流

网上博展馆