提防统计陷阱
⊙长盛量化红利基金 刘斌
在《统计陷阱》一书中Disraeli 说“有3种谎言:谎言,糟糕透顶的谎言和统计资料。”统计资料有时候会产生非常完美的具有诱惑性的陷阱,投资过程中非常难以甄别,但是作为一个成熟的投资者,必须具备甄别的能力。
最近在微博上看到一个标题为“相关性不等于因果关系”的热门帖子,里面图示了几组具备极高相关性的统计数据,包括Facebook活跃用户数量与希腊十年期国债利率、美国国家科学基金会科研总预算与全球平均温度、名字叫“AVA”的新生儿数量与美国房价指数、沙马兰电影在烂番茄网站的得分与报纸广告销售额、纽约州发生谋杀案数量与某座山的形状。
以Facebook活跃用户数量与希腊十年期国债利率为例,facebook的用户数量和希腊10年期国债利率有很高的相关性,但是从常识的角度它们没有逻辑上的相关性,也更不会有因果关系,用其中一个去预测另外一个在逻辑上毫无意义。
在投资领域,上述问题也层出不穷。投资者想要避开此类陷阱,找到真正有效的投资预测指标,还需要透过数据分析背后的逻辑关系,否则容易陷入到统计陷阱中去。
以PPI为例,我们观察2000年以来到2010年底的PPI和上证综指的走势图。在02年到10年的9年时间里,PPI明显反向领先市场,数据统计检验显著。当PPI下跌时,意味着经济在去库存,从而带来经济的复苏和市场的好转。
■
然而自2011年以来这个统计规律持续失效,PPI和市场开始同步下跌。这样的结果让许多宏观配置模型近两年彻底迷失方向,给投资业绩带来不小损失。
■
回过头反思PPI预测能力失效的原因,在于此次经济调整并非一个简单的库存周期问题,而是涉及到产能过剩和经济结构调整等各方面因素。单纯的去库存已经不能带来经济基本面的反转,经济的真正触底需要更彻底的去产能、更深入的调整结构。
因此,统计所能提炼出来的规律性和相关关系,不一定能作为可靠的模型来进行运用。我们在具体的投资过程中,要对这些关系进行科学的甄别,理清背后的逻辑关系,而且要密切跟踪逻辑关系适用性的变化。只有这样,才不会受到统计谎言的蒙蔽,更好的利用统计数据来指导投资决策。