近日,中国科学院高能同步辐射光源(HEPS)光束线软件系统与高分辨纳米电子结构(Nano-ARPES)线站在利用无监督聚类算法划分样品表面不同电子结构区域的研究方面取得重要进展。研究人员开发的多阶段无监督聚类算法(Multi-Stage Clustering Algorithm,MSCA)通过自动提取能带在表面的一致性,清晰地划分出了MoS2/BN异质结中不同衬底或层数MoS2的分布,并实现了细微能带差异的抓取。
Nano-ARPES线站通过聚焦X射线光斑至纳米量级,使得研究电子结构在表面微纳尺度的分布成为可能。然而,样品表面的复杂性以及高维度的庞大数据量给Nano-ARPES的数据分析带来了挑战,特别是,由于某种诱导因素导致的细微能带变化,比如由不同衬底或层数造成的二维材料特定能带劈裂,然而这些往往蕴含着丰富的物理机制并且是研究人员所关注的信息。针对这一问题,HEPS光束线软件系统的边苓竹工程师与Nano-ARPES线站的刘晨副研究员合作开发了一种多阶段无监督聚类算法(Multi-Stage Clustering Algorithm,MSCA)。MSCA将K-Means算法应用于三个阶段的数据处理,分别实现了动量空间与实空间的聚类分析,准确区分出了具有细微差异的单/多层以及不同衬底的MoS2。相较于传统的无监督聚类算法,MSCA在聚类精度上提升了约20%。未来,该算法将集成到HEPS的数据采集系统(MAMBA),并应用于Nano-ARPES线站,实现数据采集过程中的在线精细聚类和能带提取,从而提高Nano-ARPES数据采集效率,加速基础科研成果的产出。
相关工作已在Nature旗下的物理学一区Top期刊《Communications Physics》上发表,文章标题为“Automatic extraction of fine structural information in angle-resolved photoemission spectroscopy by multi-stage clustering algorithm”,边苓竹、刘晨共同第一作者,董宇辉研究员与南京理工大学的陈哲生教授共同担任通讯作者。
同时,HEPS光束线软件系统还在积极推动“大型科学软件框架+AI for Science”的科研范式,并与各课题组开展广泛合作,在同步辐射各类方法学的大数据处理应用中取得了一系列成果。
图1:多阶段聚类算法(MSCA)实现动量空间能带的抓取(c-e,h-j)与实空间不同电子结构区域的划分(k,n)。
图2:AI辅助大数据处理在同步辐射各类方法学中的全面应用
附件下载: