为什么说不可能用模型准确地预测出PMI指数？

Original 竹杖芒鞋观烟雨丹江湖上钓鱼翁 2024-07-07

撰写于2024年1月30日。

核心观点：理论上来说，有两个因素导致无法用模型准确预测PMI指数。一是生产指数、原材料库存指数在PMI中的权重只有35%；其他分项指标占65%，但没有合适的高频数据可用。二是国家统计局发布的PMI指数是季节调整后数据。要对它拟合模型，就必须把解释变量都进行季节调整，而用SARIMA模型进行季节调整时，时间序列末端的观测值季调结果不准确，无法用于预测。退一步说，即便我们自己的季调结果是绝对准确的，所得预测值也与统计局发布的PMI指数对不上（因为统计局没有把PMI指数中的季节性剔干净）。

用中国PMI指数构建AR模型、ADL模型，发现ADL模型的拟合效果比AR模型明显改善，但预测值依然是不可信的。卖方同行过往的拟合结果也是类似地不可信。建议放弃用模型预测PMI指数，改为根据工业品生产量、开工率高频数据主观判断。

国家统计局在每月最后一天发布当月制造业PMI指数，反映当月前25天制造业企业的生产经营状况。

从理论上说，利用主要工业品的高频（日、周）生产量或开工率数据，可以在月底之前提前预测出PMI指数。可以利用的高频指标通常包括：半钢胎开工率、高炉开工率、商品房成交面积、水泥价格、乘用车销量、独立焦化厂开工率。例如XYZQ宏观2022年9月曾经用厂家零售乘用车销量、国内独立焦化厂开工率、半钢胎汽车轮胎开工率等来拟合PMI。另外还可以用金融指标作为解释变量。例如GTJA宏观认为M2(-6)和3mShibor(-12)对PMI长期趋势有较好的拟合效果，因而可以向前预测6个月的PMI数据。FZZQ宏观2023年6月借鉴BIS 2019年的论文《金融条件与PMI：探讨二者之间的关系》，把美元指数、股指环比、信用利差作为解释变量。

不过，我认为，从理论上说，PMI的编制方法决定了，它是无法用模型准确预测的。

一、PMI编制方法的两个特点，决定了无法用模型准确预测它

国家统计局发布的制造业PMI指数，包括生产、新订单、原材料库存、从业人员、供应商配送时间、新出口订单、进口、采购量、主要原材料购进价格、出厂价格、产成品库存、在手订单、生产经营活动预期等分项指数。

但是，经过仔细分析和尝试之后，我们发现，编制PMI的两个重要特点决定了，无法用高频数据来准确预测它：

第一，总PMI指数中，生产指数占比低

PMI指数是用五个分项指数的加权平均组成的。

PMI=30%新订单+25%生产+20%从业人员+15%（100-供应商配送时间）+10%原材料库存

我们能够得到的高频数据主要是生产量和原材料库存数据，它们在PMI中合计只占35%。其他三项（新订单、从业人员、供应商配送时间）占到了65%，但都没有高频数据。这样就无法预测出PMI指数。

那么能不能预测生产指数？也不能，具体见本文最后一部分。

第二，季节调整导致的问题。

国家统计局在收集好调查问卷、汇总好原始数据后，会用季节调整软件 NBS-SA进行季节调整（但不剔除疫情影响），然后再编制PMI指数。但它剔除得不干净。例如图1中，蓝线是国家统计局发布的PMI指数，红线是我们对该指数再次进行季节调整得到的结果（使用了按央行方法编制的三个虚拟变量，但未剔除疫情影响）。可见，PMI指数每年春节的影响都未剔除干净。

图1 国家统计局发布的PMI指数季节性未剔除干净

资料来源：国家统计局；自己计算

为什么说季节调整会给预测造成困难呢？这是因为：

【1】既然PMI指数是经过季调的（虽然没调干净），我们就得先把高频数据转换成月度，然后进行季调，算出季调环比或同比，然后作为解释变量，来解释PMI指数。这里有个技术问题：季调模型背后是SARIMA模型，其中在计算移动平均值时，对数据序列末端（即最新的观测）计算不准确，导致SARIMA模型对数据序列末端调整不准确，即数据末端的季节调整结果是不可信的。

关于这个问题，我以前专门讨论过（点击）。当时我举了国家统计局发布的社会消费品总额、工业增加值季调环比的例子。例如2022年5月15日国家统计局发布的工业增加值季调环比是-7.08%，此后每月进行修正，12个月之后修正为0.16%（表1中粉红色那一行），跟-7.08%天壤之别。换言之，时间序列末端的季调环比是不可信的。

这意味着，我们在对高频数据进行季调时，得到的末端（最后几个）数据也是不可信的。受春节期间剧烈波动的影响，每年1、2月尤其不可信。而这个末端数据恰恰是利用估计方程（模型）进行预测的依据。换言之，我们要把解释变量的一期不准的观测值，代入模型，算出被解释变量的预测值。这样当然得不到准确的预测值，即便模型是完美的，也不可能得到准确的预测值；何况受限于数据质量，不可能拟合出完美的模型。

表1 国家统计局每月对工业增加值季调环比的修正%

资料来源：国家统计局网站

【2】如前所述，统计局发布的PMI指数中，季节性没剔干净，尤其是春节影响没剔干净。因此，即便我们季调得到的时间序列末端数据是可信的，并且拟合出了完美的模型，预测出了准确的PMI指数，这个预测值与统计局发布的PMI指数可能也是不匹配的。

总之，从理论上来说，不可能准确预测出国家统计局的PMI指数。不过我们还是做了一些尝试。下面展示出这些模型，来说明为什么确实不行。

二、方法1：拟合自回归模型（AR）

既然对数据进行季节调整时，末端数据不准确，不适合作为PMI指数的解释变量。那么一个自然而然的思路就是：拟合一个自回归模型，用PMI指数来预测它自己。

我们选用2020年4月至2023年12月的PMI指数。这是因为统计局没有剔除疫情对PMI指数的影响，2020年1-3月PMI指数波动非常剧烈。选用2020年4月之后的数据可以避开这段影响。

首先用PMI指数本身构建自回归模型：

PMI = 17.057 + 0.9274PMI(-1) - 0.5743PMI(-2) + 0.3057PMI(-3) （1）

R-squared只有0.5048，拟合效果很差（图2），显然不能用它来做预测。

图2 用AR模型拟合的PMI指数

资料来源：自己计算

下面我们尝试用PMI同比来拟合模型，步骤是：

（1）用2020年4月至2023年12月的PMI指数减去50；然后以2020年4月为100，计算出定基指数；再计算出2021年4月之后的同比，称为“PMI同比”。

（2）为该“PMI同比”拟合AR模型如下：

PMI=2.0031PMI(-1)-1.8399PMI(-2)+1.1974PMI(-3)-0.4188 PMI(-4)

每个系数都在1%的显著性水平上异于0。R-squared=0.9819。DW统计量=1.9745，其他统计量也都很显著。

拟合结果见图3，看起来很完美。但是，把拟合结果转换成PMI指数，就会发现它与统计局发布的PMI指数相去甚远（图4），比图2好不了多少。这一点也不奇怪，因为同比接近的时候，环比可以差得很远。

图3 用AR模型拟合的PMI同比

资料来源：自己计算

图4 把AR模型拟合得到的PMI同比转换成PMI指数

资料来源：自己计算

我们用美国ISM的制造业PMI指数进行尝试，得到了类似的结果。总之，用PMI指数构建AR模型来预测PMI指数，不可能得到准确的结果。

三、方法2：拟合自回归分布滞后模型（ADL）

式（1）显示，2020年4月至2023年12月的PMI指数是一个AR（3）过程，R-squared很低。这意味着可以把其他因素纳入模型作为解释变量。现在我们退一步，忽略季节调整会导致末端数据不准确的问题，把如下变量也作为解释变量：

（1）98个城市拥堵延迟指数的季调环比，记为yd；

（2）粗钢产量月均值的季调环比，记为cg；

（3）螺纹钢、线材、热轧板卷、中厚板、冷轧板卷、镀锌板卷、彩涂板卷表观消费量之和的月均值的季调环比，记为gt；

（4）大秦线煤炭发运量月均值季调环比，记为mt；

（5）涤纶短纤综合开工率，记为dldx。

（6）独立焦化厂开工率，记为jhc。

（7）半钢胎开工率，记为bgt。

（8）规模以上工业增加值季调环比（自己计算的，不是统计局发布的），记为iva。

这样得到的模型是：

PMI = 10.3488 + 0.7864 PMI(-1) + 0.1051YD +1.2037IVA - 0.4893IVA(-1)

R-squared是0.7694，比式（1）明显提高。拟合效果见图5，明显好于图2。但是也没有好太多。这么高的R-squared，足以拟合出趋势，但不注意准确拟合出每个数据点。在45个观测中，有12个发生了方向性错误，占27%，略好于某同行的模型。

图5 用ADL模型拟合的PMI指数

资料来源：自己计算

此时预测得到2024年1月PMI指数是48.1。但是由于【1】拟合优度很低；【2】工业增加值环比、拥堵延时指数环比是我们自己季调的结果，末端（2024年1月）环比不可信。【3】工业增加值不是高频数据，2024年1月工业增加值本身也是我们用其他模型预测出来的（其实从逻辑上来说，既然已经预测出工业增加值，再预测PMI就没啥必要）。因此这个预测值是不可信的。

总之，我们尝试过AR模型和ADL模型之后，确认无法准确预测PMI指数。从图6看，市场对PMI的一致预期也经常不准确。

图6 PMI指数的一致预期

资料来源：自己计算

从同行看，也没能构建出漂亮的模型。例如XYZQ宏观2022年9月用厂家零售乘用车销量、国内独立焦化厂开工率、半钢胎汽车轮胎开工率等作为解释变量，拟合得到的R方为0.87，预测PMI方向变动的准确率为65.7%。FZZQ宏观2023年6月把美元指数、股指环比、信用利差作为解释变量进行拟合，得到的R方是0.72。我认为这么低的R方和准确率，只能拟合出趋势，无法拟合出每个数据点。用于预测的话，是无法令人信服的。TFZQ策略2019年5月用发电耗煤拟合PMI，并且承认“虽然模型无法做到精确，但在方向上还是具有一定参考价值”。

四、结论

综上所述，从理论上和实际操作上，都无法准确预测出PMI指数。

前面提到：在PMI指数中，生产只占了25%的权重。由于制造业PMI与生产指数基本上是同步的（图7），如果能预测出生产指数，是不是就能判断出PMI指数的方向了？

理论上是这样，但不幸的是，生产指数也无法预测。因为预测它，也面临着本文第一部分说的问题：统计局没把季节性剔除干净（图7）；对高频数据进行季调，末端数据不可信。

图7 PMI生产指数与总指数

资料来源：国家统计局；自己计算

不过本文并非没有价值。它的价值就是：此路不通，请绕道。如果未来统计局能发布未经季调的PMI，并且能发布更多完善的、高质量的、高频的、生产量方面的数据，可以再度尝试拟合PMI。

在此之前，建议还是根据生产量、开工率高频数据做主观判断，也就是“拍脑袋”。

继续滑动看下一个

丹江湖上钓鱼翁

向上滑动看下一个

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

入不敷出的成武县，每年给退休公务员发8亿养老金

【喜报】天水公安代表队在全省公安机关第二届警体运动会勇夺佳绩

为什么说不可能用模型准确地预测出PMI指数？

您可能也对以下帖子感兴趣

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

入不敷出的成武县，每年给退休公务员发8亿养老金

【喜报】天水公安代表队在全省公安机关第二届警体运动会勇夺佳绩

生成图片，分享到微信朋友圈

为什么说不可能用模型准确地预测出PMI指数？

您可能也对以下帖子感兴趣