国家地震科学数据中心

谛听数据集2.0-中国地震台网多功能大型人工智能训练数据集

站内咨询
  • 2024-03-18
    最新更新时间
  • 130.0GB 1235295条
    数据量
  • 6632
    数据访问量
  • 数据共享方式
    离线获取

数据基本信息

所属分类: 测震数据 ( D11000 )
数据标识: DOI:10.12080/nedc.11.ds.2023.0002
CSTR:12166.11.ds.2023.0002
时间范围: 2020.03-2023.02
空间范围: 中国大陆及邻区(15°-50°N, 65°-140°E)

数据集制作者信息

制作者: 赵明,肖卓伟,陈石等
邮   箱: mzhao@cea-igp.ac.cn
单   位: 北京白家疃地球科学国家野外科学观测研究站

数据摘要

面对未来海量的地震监测数据,智能化的数据处理、分析和解释,离不开高质量、规范化的专业数据集,谛听地震学数据集在1.0版本基础上,进一步升级和迭代完成了2.0版本的研发, 服务地震学人工智能和大数据研究分析。

谛听数据集2.0收集了中国地震台网2020.3~2023.2年间的震相观测报告和国家测震台网数据备份中心的事件波形,包括来自264,298个中国大陆及邻区天然地震事件的1089920条三分量波形,以及958076个Pg、780603个Sg、152752个Pn、25956个Sn震相到时标签,此外还有249477个Pg波、41610个Pn初动极性标签。数据集中,地震事件的震级范围为0~8.2级,震中距范围为0~1000 km, 台站方位角分布为0~360度,均与波形对应进行了标注。

本次谛听数据集2.0增加了非天然地震数据类型,一共收录了2009年至2023年2月1496个事件共计15375条波形,主要事件类型为爆破(ep,占36.5%)、疑爆(sp,8.7%)、塌陷(ss,34.5%)、其他(ot,18.9%)等。

此外,本次谛听数据集2.0还专门制作了单独的噪声数据集,旨在提升人工智能模型在实际应用中的抗噪能力。噪声数据取自使用人工智能算法对全国台网2021.6-2023.2期间连续波形记录进行检测所产生的典型干扰信号,总共~13万,共由四个小组分工复核完成,主要噪声种类包括:(1)实时流数据传输故障引起的波形间断或畸变;(2)仪器故障产生的异常波形;(3)工业活动等非天然地震事件;(4)存在振幅和频率特征变化的噪声等。

数据产生或加工方法

波形数据以多个hdf5格式文件存储。其中,元信息为与hdf5格式文件同名的json文件,可以通过Data_Read_Example.ipynb来读取其中的信息,主要包含如下信息:key值(如'25184_144')表示'事件id_台站id', 'Pg'、'Sg'、 'Pn'、'Sn'为震相类型和到时, 'Pg_res'、 'Sg_res'、 'Pn_res'、 'Sn_res'为理论到时残差,'Pg_polarity'、'Pn_polarity'为P波初动极性,,'Pg_sharpness'、'Pn_sharpness'为初动极性的尖锐程度(仅做参考), 'Sg_azi'、 'Pg_azi'等为震相类型对应的方位角, 'Pg_dist'、'Sg_dist'为震中距, 'se_mag'、 'sn_mag'为E、N分量震级, 'se_time'、'sn_time'为E、N分量最大S震幅到时, 'mag'为最终震级, 'magtype'为震级类型, 'evtype'为事件类型,噪声数据标签为'序号_专家编号_Noise'或'序号_Expert_专家编号_Earthquake'形式,其中序号是波形的唯一标识,专家编号代表不同组专家,一共有四组, ['Junior_A', 'Expert_A', 'Expert_B', 'Expert_C'],Noise或Earthquake是指专家复核的结论。

数据质量说明

(1)天然地震事件和非天然事件波形的标签均来源于中国地震台网中心的震相报告,由各省级地震局的编目专家人工编目、复核而成,由于中国地震局极为重视编目报告的质量,会定期组织对编目专家的技术培训,以及速报评比,因此标注质量有保障;(2)波形记录完整,且信噪比计算不存在NaN与inf值,绝大部分标注到时均计算了与理论走时相比较的走时残差,其中 Pg平均残差在0.5 s以内的占77.32%,Pn占56.02%, Sg占67.04%,Sn占46.21%;(3)噪声波形由四组专家独立完成,不同专家编号的噪声标签存在一定主观性,使用时最好注意区分,根据交叉测试, 'Expert_A', 'Expert_B两组标注在自相关一致性和互相关一致性上系数较高。

数据生产者

赵明134, 肖卓伟2,陈石134,张博1349, 汪小厉6,唐淋7, 郭凯8,马莉9,杨红艳9,张怀5

1.中国地震局地球物理研究所 2.中国科学院地质与地球物理研究所  3.地震大模型创新应用联合实验室  4.北京白家疃国家野外科学观测研究站  5.中国科学院大学计算地球动力学实验室  6. 安徽省地震局  7. 四川省地震局 8.中国地震台网中心  9.辽宁省地震局 

数据来源

为尊重知识产权、保障数据作者和数据服务提供者的权益,请数据使用者在基于本数据所产生的研究成果(包括项目评估报告、验收报告,以及学术论文或毕业论文等)中标注数据来源和数据作者,按照[引用方式]标注需引用的内容,并将可公开成果提交到国家地震科学数据中心网站(首页用户登陆--成果反馈)。

本数据集中标签使用了中国地震台网中心2020-2023年的震相观测报告,波形样本来自于中国地震局地球物理研究所地震科学国际数据中心2020-2023年测震事件波形。

数据引用方式

数据集引用:

赵明,肖卓伟,陈石,张博等,2023.谛听数据集2.0-中国地震台网多功能大型人工智能训练数据集[EB/OL].https://data.earthquake.cn,2023.DOI:10.12080/nedc.11.ds.2023.0002 or CSTR:12166.11.ds.2023.0002.

Zhao, M., Xiao, Z.W., Chen, S., Zhang, B., et al., 2023.Diting Dataset 2.0 - multi-functional large-scale artificial intelligence training data set from Chinese Seismic Network. [EB/OL].https://data.earthquake.cn,2023.DOI:10.12080/nedc.11.ds.2023.0002 or CSTR:12166.11.ds.2023.0002.

 论文引用:

Zhao, M., Xiao, Z., Chen, S., & Fang, L. (2022). DiTing: A large-scale Chinese seismic benchmark dataset for artificial intelligence in seismology. Earthq. Sci, 35, 1-11.

Zhao, M., Xiao, Z., Zhang, M., Yang, Y., Tang, L., & Chen, S. (2023). DiTingMotion: A deep-learning first-motion-polarity classifier and its application to focal mechanism inversion. Frontiers in Earth Science, 11, 335.https://doi.org/10.3389/feart.2023.1103914.


成果反馈

为更好地了解数据的应用情况,请及时反馈成果信息