近日,国家地震科学数据中心发布了地震学训练数据集—“谛听”。该数据集由赵明(中国地震局地球物理研究所、北京白家疃地球科学国家野外科学观测研究站)、肖卓伟(中国科学院地质与地球物理研究所)、陈石(中国地震局地球物理研究所、北京白家疃地球科学国家野外科学观测研究站)和房立华(中国地震局地球物理研究所、中国地震局震源物理重点实验室)研究团队加工制作。
近年来,人工智能技术在地震信号识别上展现出巨大潜力,并掀起了新一轮的研究热潮。人工智能在地震学中的发展和应用需要大量的、高质量的标签数据,赵明研究团队利用中国地震台网2013~2020年间的震相观测报告和国家测震台网数据备份中心的事件波形,在经过数据清洗和脱敏处理之后,建立了“谛听”(DiTing)数据集。该数据集包括来自787,010个近震事件的2,734,748条三分量波形,以及对应的P波和S波震相到时标签,此外还有641,025个P波初动极性标签。该数据集中地震事件的震级范围为0~7.7级,震中距范围为0~330 km,P波信噪比主要分布在 -0.05~5.31 dB内,S波信噪比主要分布在 -0.05 ~ 4.73 dB内。记录仪器类型主要包括宽频带和短周期两种。该数据集可以为开发机器学习模型,开展地震检测、震相拾取、初动极性判别、震级预测、地震预警和强地面运动预测等数据驱动型的地震学研究提供高质量的标准数据集,对进一步推动人工智能地震学的发展及其应用起到积极作用。
图1 谛听数据集使用的地震事件和台站分布
图2 震中距、震级、P波和S波信噪比分布图
(a) 台站反方位角分布(单位:度︒);(b)P波初动极性分布图,其中“U”为向上,“D”为向下,“I”、“E”、“-”代表初动标注特征,分别为清晰、一般、未评级;(c)震级类型
图3 数据集的后方位角、初动极性和震级类型统计
图4标注波形示例
数据集详情请点击:“谛听”人工智能地震学训练数据集