国家地震科学数据中心

“谛听”人工智能地震学训练数据集

站内咨询
  • 2023-10-31
    最新更新时间
  • 292.0GB
    数据量
  • 20207
    数据访问量
  • 数据共享方式
    离线获取

数据基本信息

所属分类: 测震数据 ( D11000 )
数据标识: DOI:10.12080/nedc.11.ds.2022.0002
CSTR:12166.11.ds.2022.0002
时间范围: 2013.01-2020.02
空间范围: 中国大陆及邻区

数据集制作者信息

制作者: 赵明,肖卓伟,陈石,房立华
邮   箱: mzhao@cea-igp.ac.cn
单   位: 北京白家疃地球科学国家野外科学观测研究站,中科院地质地球所,中国地震局地球物理研究所

数据摘要

人工智能在地震学中的发展和应用需要大量的、高质量的标签数据。利用中国地震台网中心2013~2020年间的震相观测报告,建立了目前全球规模最大的人工智能地震学训练数据集--“谛听”。该数据集包括787,010个近震事件的2,734,748条标注了P、S震相到时的三分量波形,641,025个P波初动极性标签,存为27个相互独立的hdf5文件,与波形对应的事件震级、震中距、台站后方位角、信噪比等描述信息,存为27个csv文件,与hdf5文件一一对应。震级范围为0~7.7级,震中距为0~330 km,P波信噪比主要分布在 -0.05~5.31 dB内,S波在 -0.05 ~ 4.73 dB内。波形统一采样率为50 Hz,并按地震发震时刻前一定随机秒数截取了180 s长度。

数据产生或加工方法

由于数据量较大,我们以多个hdf5格式文件存储数据。其中,元信息以单个csv文件存储,包含的信息如下:(1) 'part' 指对应的hdf5文件编号;(2)‘key’ 指波形数据对应的索引;(3) 'ev_id' 指波形文件对应的地震数字编号;(4)'ev_mag'指对应的地震震级;(5) 'mag_type'指对应的地震震级类型;(6) 'p_pick'指P波到时;(7) 'p_sharpness’指P波初动的尖锐程度;(8) 'p_motion'指P波初动极性;(9) 's_pick'指S波到时;(10)'net_id'指台网数字编号;(11)'sta_id'指台站数字编号;(12)'dis'指波形文件的震中距;(13) 'st_mag'指波形文件的单台震级;(14) 'az'指波形文件的方位角;(15)'Z_P_amplitude_snr', 'Z_P_power_snr', 'N_S_amplitude_snr', 'N_S_power_snr', 'E_S_amplitude_snr', 'E_S_power_snr'分别指波形记录在Z、N、E通道上对应的P、S波以振幅和功率分别计算的信噪比;(16) 'P_residual'指P波人工标注到时与理论到时的残差;(17)'S_residual'指S波人工标注到时与理论到时的残差。

数据质量说明

为控制数据质量,我们筛选出符合下述三个条件的地震记录:(1)震中距不超过330 km;(2)同时具有P和S震相的人工标注;(3)波形记录完整,且信噪比计算不存在NaN与inf值。91%的标注到时均计算了与理论走时相比较的走时残差,其中残差±0.5s以内P波占总数百分比为76.04%,S波为61.16%。

数据来源

数据生产者:赵明(北京白家疃地球科学国家野外科学观测研究站),肖卓伟(中科院地质地球所),陈石(中国地震局地球物理研究所),房立华(中国地震局地球物理研究所)。
       本数据集中使用的震相观测报告来自于中国地震台网中心2013-2020年的震相观测报告,事件波形来自于中国地震局地球物理研究所2013-2020年事件波形。

数据引用方式

赵明,肖卓伟,陈石,房立华."谛听"人工智能地震学训练数据集[EB/OL]. https://data.earthquake.cn,2022.DOI:10.12080/nedc.11.ds.2022.0002 or CSTR:12166.11.ds.2022.0002.
Zhao Ming, Xiao Zhuowei, Chen Shi, Fang Lihua. "DiTing" Benchmark Chinese Data Set for Artificial Intelligence in Seismology [EB/OL]. https://data.earthquake.cn,2022.DOI:10.12080/nedc.11.ds. 2022.0002 or CSTR:12166.11.ds.2022.0002.

论文引用:
Zhao M, Xiao ZW, Chen S, and Fang LH (2022). DiTing: A Large-scale Seismic Benchmark DataSet of China for Artificial Intelligence. Earthq Sci35(5): Q20210081,doi:10.1016/j.eqs.2022.01.022.

成果反馈

为尊重知识产权、保障数据作者和数据服务提供者的权益,请数据使用者在基于本数据所产生的研究成果(包括项目评估报告、验收报告,以及学术论文或毕业论文等)中标注数据来源和数据作者,按照[引用方式]标注需引用的内容,并将可公开成果提交到国家地震科学数据中心网站(首页用户登陆--成果反馈)。

为更好地了解数据的应用情况,请及时反馈成果信息