统计，以信仰之名：(五)统计模型中的经典模式

关注微信：DuoDaaMath 每天获得更多数学趣文

作者，浪荡游侠，哆嗒数学网群友。

在上一章中，我们提到统计学中有一些经典模式，这些模式或多或少有一定的道理，而且能很大程度上简化模型。当你无从入手时，这些模式也许会给你一些启发，或者起码能给你一个出发点。

1、平稳性假设(smooth)

物理学中瞎逼求导的坏习惯百年来屹立不倒。很多东西在数学上我们无法确定它是否可导，但我们总愿意给出光滑性假设或平稳性假设(反正英文中都是smoothness)。这个直觉沿用到了统计学中。我们希望信号非常光滑，比如音乐的音调不会突然变化，无噪点图上颜色的变化近乎平稳，人的习惯不会突然变化，视频的图像具有连续性。从这些例子来看，这个假设还是有一定道理的，起码与我们的经验感觉相符。

下面说说统计学中的噪声。统计学中的噪声一般都是白噪声或布朗运动这些七里拐弯，乱七八糟的东西，它们简直是平稳性的天敌。这样，信号与噪声就有了区别，我们有了足够底气来分离它们。

在平稳性假设下的统计可以用两个字概括——平滑。其实数学里有专门的一个分支来研究平滑，就是调和分析。所以在平稳性假设下，调和分析就可以大展身手了。很多统计方法实际上就是移用调和分析的工具，比如用Fourier变换将无限维变为可数维是调和分析中的技巧，再如非参估计里的kernel就是调和分析中的approximate identity。我知道到了这里我已经显得神神叨叨，那么这一节就这么结束吧，我们讨论下一个经典模式。

2、稀疏性假设(sparse) 与同质性原则(homogeneity)

在高维统计问题中，要估计某个量，我们往往要考虑成千上万个因素。但这些因素中很多都是没用的。比如要估计一个人的智商，给你今天降水量多少显然起不到什么作用，我们要找到像看不看韩剧，转发没转发过锦鲤这样的关键性因素。如果一个因素提供的信息很少而掺进大量噪声，估计的质量反而要下降。所以我们有稀疏性假设：对一个事件产生重大影响的只有很少几个因素，影响小的因素我们索性将其置为0。

但是我们如何将这些“重要因素”筛选出来呢？人工选择是工科干的事，况且有时看似无关的因素实际却很重要。统计归根结底是一门关乎数据的科学，我们希望由数据来告诉我们哪些是重要因素。在数学中，也有一门近来兴起的分支来研究稀疏性问题，称作“压缩感知”，代表方法是L1惩罚，当然也有很多其他的方法(group lasso, SCAD)。它的好处是可以自动筛选重要的变量。

构建模型时也可能遇到这样一种情况，在诸多变量中几个变量都起作用，但是它们起的作用都相同，这就是所谓的"同质性(homogeneity)"。这种情况用压缩感知的方法同样可以解决，不过之前要做一些技术性处理。

关注微信：DuoDaaMath 每天获得更多数学趣文

新浪微博：http://weibo.com/duodaa

统计，以信仰之名：(五)统计模型中的经典模式

评论已关闭

最新文章

最近回复

分类

归档

其它