气象统计分析与预报方法

第一章——气象资料的整理

基本统计量:

图片

平均值:代表了气象、气候变量观测记录取值的集中趋势或’中心’位置,在气候统计中是最常用的统计量。具体有日平均、月平均、年平均和累年平均等。

图片

  • 平均值的局限:当数据遵循于高斯分布(正态分布)时,平均值能够很好的体现数据的中心趋势。而当数据不满足高斯分布时,通常的平均值计算方法很可能会产生错误的中心趋势结果。

中位数:又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。

图片

众数:频率分布图中最大频率(极大值)对应的观测值

百分位数:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。

  • 百分位数含义:将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。
  • 计算:图片
    • eg:

方差:

图片

标准差:

图片

  • 方差以及标准差的应用:距平——反映了样本资料偏离气候平均值的状况, 通常也叫要素的异常值。
    图片
  • 标准差标准化:通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个较小的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值,也就是标准化数值,使各指标的数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。eg:图片

图片

偏度系数:描述分布偏离对称性程度的一个特征数

图片

峰度系数:表征概率密度分布曲线在平均值处峰值高低的特征数。

图片

  • 越瘦高说明在中间的值越集中,越矮胖说明数据越平均

相关:

  • 复相关:一个变量与多个变量的相关程度的描述
  • 偏相关:控制一些变量的条件下,两个变量之间的相关程度
  • 简单相关系:
    图片
  • 自相关系数:
    图片

协方差:用于衡量两个变量的总体误差

  • 定义:反映了两个气象要素异常关系的平均状况,或者两个变量的正、负相关关系。两变量关系越密切,其协方差的绝对值越大
    图片
  • 协方差矩阵:
    图片
    图片

皮尔逊相关系数:协方差除以两个变量的标准差之积

  • 皮尔逊相关系数指表示两个统计量之间的相关程度
  • 含义:描述两个随机变量线性相关的统计量
    图片

统计假设检验

  • 为什么要进行统计假设性检验?
    我们在实际预报的工作中,发现一条预报规律,常常需要检验这条预报规律是否可靠,是不是反映客观的规律性,或是检验一种分组是否具有突出的规律。
    这些问题需要有一种方法来检验,就像工厂的产品质量检查一样,这种问题一般在统计上成为“假设检验”
  • 统计假设性检验的基本原理:
    1.小概率原理——实际中,小概率事件不应发生。
    2.观测到的显著水平——由样本数据计算出来的检验统计量所截取的尾部面积/概率(P值),这个概率较小,则反对原假设(小概率事件发生了)。
    3.检验所用的显著性水平——针对具体问题的具体特点,事先规定检验标准。

显著性水平(临界概率)

  • 显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,即在原假设为真时拒绝原假设的概率,用α表示。
  • 统计上以表示小概率,称为置信度、信度或显著水平。
  • 气象上通常采用的信度为0.05或0.01;个别情况下也用0.001,0.1,0.2等。

显著性(假设统计)检验的一般流程:

  • 明确要检验的问题,提出统计假设H0;
  • 确定显著性水平α;
  • 针对所研究的问题,选取一个适当的统计量。(例如:检验两组样本均值差异可选用t检验,检验方差的显著性选用F检验等。通常这些统计量的分布均有表可查)
  • 根据观测样本计算有关统计量;
  • 对给定的α,从表上查出与α水平相应的数值,即确定临界值;
  • 比较统计量计算值与临界值,看是否落入否定域中;若落入否定域则拒绝原假设H0。

第二章——回归分析

回归的基本思想

  • 回归分析是用来寻找若干变量之间统计联系关系的一种方法。利用所找到的统计关系对某一变量作出未来时刻的估计,成为预报值。为了预报某个对象未来时刻的变化(预报量),选择预报量前期已发生的多个有关的气象要素(预报因子),利用回归分析方法去分析多个预报因子与这个预报量之间的相互关系,建立它们统计关系的方程式,最后利用方程式来对未来时刻的气象要素作出预报估计。
  • 方法概述:图片

回归模型的分类

图片

什么是线性回归

  • 是描述一个因变量(或称为响应变量dependent variable)Y与一个或多个自变量(independent variable)X间的线性依存关系。根据自变量数目的不同可分为一元线性回归(只有一个 自变量)和多元线性回归(有两个或两个以上的自变量)。

一元线性回归模型

  • 对于总体,假设预报量与因子为线性关系。
    图片
  • 为估计未知参数β0和β ,抽取样本容量为 n 的预报量 y 与预报因子 x 的一组样本,将观测值(xi,yi)代入,预报量的估计量 y 与 x 有如下关系:
    图片
  • 系数的求解
    图片

怎样才能找到一条对所有点的散布情况代表性最好的直线呢

图片
图片

一元线性回归的建立——思路

图片

总结

  • 求一元线性回归方程,实际上是用回归直线拟合散点图中的各观测点。
  • 常用的方法是最小二乘法:也就是使该直线与各点的纵向垂直距离最小,即使实测值y与回归直线之差的平方和(残差平方和)达到最小。
  • 因此,求回归方程的问题归根到底就是求对残差平方和取得最小值时b0和b的问题。

回归问题的方差分析

  • 意义——评价回归方程的优劣
  • 预报量的方差可以表示成回归估计值的方差(回归方差)和误差(残差)方差之和
    图片
  • 回归方程的优劣取决于回归方差(回归估计值的方差)的大小。
    *有时为了简略,对上面的式子两边各乘以n,则变成各变量离差平方和的关系:
    图片
  • 由回归的方差分析可知,回归方差不可能大于预报量的方差,因此可以用它们的比值来衡量方程的拟合效果。
    图片

相关系数与线性回归

  • 因为回归方差不可能大于预报量的方差,可以用它们的比值来衡量方程的拟合效果。即:
    图片
    上式表明预报因子x对预报量y的方差的线性关系程度,这一比值又称为解释方差。判决系数是衡量两个变量线性关系密切程度的量,也等于两变量相关系数的平方。

判决系数的物理含义

  • 回归平方和占总离差平方和的比例;
  • 反映回归直线的拟合程度;
  • 取值范围在[0,1]
  • r²→1,说明回归方程拟合的越好;r²→0,说明回归方程拟合的越差;
  • 判决系数等于相关系数的平方.
  • 回归分析与相关分析的区别:
    • 相关分析中,变量x、y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化。
    • 相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。
    • 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制

第三章

第四章——主分量分析

PCA功能:

  • 从通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
    • 对事物特征的描述因子往往有众多的反映不同特征的指标,而由于因子众多,而且因子之间存在相关和重叠,特征描述就比较杂乱,难以表现最主要的规律。
    • 主分量分析就是归纳多因子的线性组合得到综合因子,而这个综合因子指标概括了多个因子变化的主要信息,从而可以减少表示特征的因子数。
    • 这个综合指标称为主成分或主分量。

两个变量的主分量

图片
图片
图片
图片
图片
图片
图片
图片

主分量的性质

  • 各主分量的方差分别为原p 个变量的协方差的特征值,不同的主分量彼此是独立的。
    图片
  • 各主分量的方差贡献按对应特征值的大小顺序排列。
    称前m个主分量占总方差的百分率为累积方差贡献,或累积解释方差
    图片
  • p个主分量的总方差与原p个变量的总方差相等。
    图片

气象要素场的经验正交函数分解

  • 经验正交函数分解,又称自然正交展开,是主成分分析的应用,在气象科研中有极广泛的应用。
    • 在气象统计中,经常要研究分析各种气象要素场(Field of elements),例如海温场、降水场,它们大多由不规则的网格点所组成。如果抽取这些场的某一段历史时期的资料,就构成一组以网格点为空间点(多个变量)的随机时间变化样本,也就是说,气象场的变化有空间的变化特征,也有时间的变化特征。经验正交函数分解(EOF)分析就是针对这种气象要素场为分析对象的分析方法。
  • 经验正交函数分解的思路是:把随时间变化的气象要素场分解为空间函数部分和时间函数部分:
    • 空间函数部分概括场的地域分布特点,这部分是不随时间变化的;
    • 而时间函数部分则由空间点(变量)的线性组合构成,称为主分量,这些主分量的头几个占有原空间点(变量)的总方差的很大部分。
  • 研究主分量随时间变化的规律就可以代替对场的随时间变化的研究。

气象要素场的时空分解

图片
图片

经验正交函数分解

图片
图片

经验正交函数的物理意义

图片

第九章——谱分析

滤波

  • 大气运动时多种时间和空间尺度的系统组成的,空间尺度与时间尺度有基本的对应关系,空间尺度越大的系统时间尺度也越大,活动周期越长。
    • 对气象要素作谱分析过程中,一些规则周期占有很大的分量,例如如果对月平均气象要索序列作分析,结果年变化周期一定是主要周期。但这种周期是众所周知的,它的存在,压低了其它周期的表现,一旦把它去掉之后,则可突出地表现其它周期的成分。大气运动时多种时间和空间尺度的系统组成的,空间尺度与时间尺度有基本的对应关系,空间尺度越大的系统时间尺度也越大,活动周期越长。
  • 由于研究目的的不同,需要把感兴趣的周期从原来的序列中识别和提取出来,这种过程就叫滤波。

滤波种类

  • 低通滤波:使过滤后的序列主要含低频振动分量的过滤,称为低通滤波(滑动平均,二项系数滑动);
  • 高通滤波:使过滤后的序列主要含高频振动分量的过滤称为高通滤波,常用的高通滤波是差分滤波;
  • 带通滤波:当需要滤出某一感兴趣的波段或频率带的振动时,可使用带通滤波器.

留下评论

您的邮箱地址不会被公开。 必填项已用 * 标注