统计,以信仰之名:(五)统计模型中的经典模式

 

关注微信:DuoDaaMath 每天获得更多数学趣文

新浪微博:http://weibo.com/duodaa

 

作者,浪荡游侠,哆嗒数学网群友。

 

在上一章中,我们提到统计学中有一些经典模式,这些模式或多或少有一定的道理,而且能很大程度上简化模型。当你无从入手时,这些模式也许会给你一些启发,或者起码能给你一个出发点。

 

1、平稳性假设(smooth)

物理学中瞎逼求导的坏习惯百年来屹立不倒。很多东西在数学上我们无法确定它是否可导,但我们总愿意给出光滑性假设或平稳性假设(反正英文中都是smoothness)。这个直觉沿用到了统计学中。我们希望信号非常光滑,比如音乐的音调不会突然变化,无噪点图上颜色的变化近乎平稳,人的习惯不会突然变化,视频的图像具有连续性。从这些例子来看,这个假设还是有一定道理的,起码与我们的经验感觉相符。

 

下面说说统计学中的噪声。统计学中的噪声一般都是白噪声或布朗运动这些七里拐弯,乱七八糟的东西,它们简直是平稳性的天敌。这样,信号与噪声就有了区别,我们有了足够底气来分离它们。

 

在平稳性假设下的统计可以用两个字概括——平滑。其实数学里有专门的一个分支来研究平滑,就是调和分析。所以在平稳性假设下,调和分析就可以大展身手了。很多统计方法实际上就是移用调和分析的工具,比如用Fourier变换将无限维变为可数维是调和分析中的技巧,再如非参估计里的kernel就是调和分析中的approximate identity。我知道到了这里我已经显得神神叨叨,那么这一节就这么结束吧,我们讨论下一个经典模式。

 

 

2、稀疏性假设(sparse) 与 同质性原则(homogeneity)

在高维统计问题中,要估计某个量,我们往往要考虑成千上万个因素。但这些因素中很多都是没用的。比如要估计一个人的智商,给你今天降水量多少显然起不到什么作用,我们要找到像 看不看韩剧,转发没转发过锦鲤这样的关键性因素。如果一个因素提供的信息很少而掺进大量噪声,估计的质量反而要下降。所以我们有稀疏性假设:对一个事件产生重大影响的只有很少几个因素,影响小的因素我们索性将其置为0。

 

但是我们如何将这些“重要因素”筛选出来呢?人工选择是工科干的事,况且有时看似无关的因素实际却很重要。统计归根结底是一门关乎数据的科学,我们希望由数据来告诉我们哪些是重要因素。在数学中,也有一门近来兴起的分支来研究稀疏性问题,称作“压缩感知”,代表方法是L1惩罚,当然也有很多其他的方法(group lasso, SCAD)。它的好处是可以自动筛选重要的变量。

 

构建模型时也可能遇到这样一种情况,在诸多变量中几个变量都起作用,但是它们起的作用都相同,这就是所谓的"同质性(homogeneity)"。这种情况用压缩感知的方法同样可以解决,不过之前要做一些技术性处理。

 

 

关注微信:DuoDaaMath 每天获得更多数学趣文

新浪微博:http://weibo.com/duodaa

标签: none

评论已关闭