核心观点:理论上来说,有两个因素导致无法用模型准确预测PMI指数。一是生产指数、原材料库存指数在PMI中的权重只有35%;其他分项指标占65%,但没有合适的高频数据可用。二是国家统计局发布的PMI指数是季节调整后数据。要对它拟合模型,就必须把解释变量都进行季节调整,而用SARIMA模型进行季节调整时,时间序列末端的观测值季调结果不准确,无法用于预测。退一步说,即便我们自己的季调结果是绝对准确的,所得预测值也与统计局发布的PMI指数对不上(因为统计局没有把PMI指数中的季节性剔干净)。用中国PMI指数构建AR模型、ADL模型,发现ADL模型的拟合效果比AR模型明显改善,但预测值依然是不可信的。卖方同行过往的拟合结果也是类似地不可信。建议放弃用模型预测PMI指数,改为根据工业品生产量、开工率高频数据主观判断。国家统计局在每月最后一天发布当月制造业PMI指数,反映当月前25天制造业企业的生产经营状况。从理论上说,利用主要工业品的高频(日、周)生产量或开工率数据,可以在月底之前提前预测出PMI指数。可以利用的高频指标通常包括:半钢胎开工率、高炉开工率、商品房成交面积、水泥价格、乘用车销量、独立焦化厂开工率。例如XYZQ宏观2022年9月曾经用厂家零售乘用车销量、国内独立焦化厂开工率、半钢胎汽车轮胎开工率等来拟合PMI。另外还可以用金融指标作为解释变量。例如GTJA宏观认为M2(-6)和3mShibor(-12)对PMI长期趋势有较好的拟合效果,因而可以向前预测6个月的PMI数据。FZZQ宏观2023年6月借鉴BIS 2019年的论文《金融条件与PMI:探讨二者之间的关系》,把美元指数、股指环比、信用利差作为解释变量。不过,我认为,从理论上说,PMI的编制方法决定了,它是无法用模型准确预测的。一、PMI编制方法的两个特点,决定了无法用模型准确预测它国家统计局发布的制造业PMI指数,包括生产、新订单、原材料库存、从业人员、供应商配送时间、新出口订单、进口、采购量、主要原材料购进价格、出厂价格、产成品库存、在手订单、生产经营活动预期等分项指数。但是,经过仔细分析和尝试之后,我们发现,编制PMI的两个重要特点决定了,无法用高频数据来准确预测它:PMI=30%新订单+25%生产+20%从业人员+15%(100-供应商配送时间)+10%原材料库存
我们能够得到的高频数据主要是生产量和原材料库存数据,它们在PMI中合计只占35%。其他三项(新订单、从业人员、供应商配送时间)占到了65%,但都没有高频数据。这样就无法预测出PMI指数。那么能不能预测生产指数?也不能,具体见本文最后一部分。国家统计局在收集好调查问卷、汇总好原始数据后,会用季节调整软件 NBS-SA进行季节调整(但不剔除疫情影响),然后再编制PMI指数。但它剔除得不干净。例如图1中,蓝线是国家统计局发布的PMI指数,红线是我们对该指数再次进行季节调整得到的结果(使用了按央行方法编制的三个虚拟变量,但未剔除疫情影响)。可见,PMI指数每年春节的影响都未剔除干净。
图1 国家统计局发布的PMI指数季节性未剔除干净
资料来源:国家统计局;自己计算
【1】既然PMI指数是经过季调的(虽然没调干净),我们就得先把高频数据转换成月度,然后进行季调,算出季调环比或同比,然后作为解释变量,来解释PMI指数。这里有个技术问题:季调模型背后是SARIMA模型,其中在计算移动平均值时,对数据序列末端(即最新的观测)计算不准确,导致SARIMA模型对数据序列末端调整不准确,即数据末端的季节调整结果是不可信的。关于这个问题,我以前专门讨论过(点击)。当时我举了国家统计局发布的社会消费品总额、工业增加值季调环比的例子。例如2022年5月15日国家统计局发布的工业增加值季调环比是-7.08%,此后每月进行修正,12个月之后修正为0.16%(表1中粉红色那一行),跟-7.08%天壤之别。换言之,时间序列末端的季调环比是不可信的。这意味着,我们在对高频数据进行季调时,得到的末端(最后几个)数据也是不可信的。受春节期间剧烈波动的影响,每年1、2月尤其不可信。而这个末端数据恰恰是利用估计方程(模型)进行预测的依据。换言之,我们要把解释变量的一期不准的观测值,代入模型,算出被解释变量的预测值。这样当然得不到准确的预测值,即便模型是完美的,也不可能得到准确的预测值;何况受限于数据质量,不可能拟合出完美的模型。资料来源:国家统计局网站
【2】如前所述,统计局发布的PMI指数中,季节性没剔干净,尤其是春节影响没剔干净。因此,即便我们季调得到的时间序列末端数据是可信的,并且拟合出了完美的模型,预测出了准确的PMI指数,这个预测值与统计局发布的PMI指数可能也是不匹配的。总之,从理论上来说,不可能准确预测出国家统计局的PMI指数。不过我们还是做了一些尝试。下面展示出这些模型,来说明为什么确实不行。既然对数据进行季节调整时,末端数据不准确,不适合作为PMI指数的解释变量。那么一个自然而然的思路就是:拟合一个自回归模型,用PMI指数来预测它自己。我们选用2020年4月至2023年12月的PMI指数。这是因为统计局没有剔除疫情对PMI指数的影响,2020年1-3月PMI指数波动非常剧烈。选用2020年4月之后的数据可以避开这段影响。PMI = 17.057 + 0.9274PMI(-1) - 0.5743PMI(-2) + 0.3057PMI(-3) (1)
R-squared只有0.5048,拟合效果很差(图2),显然不能用它来做预测。
(1)用2020年4月至2023年12月的PMI指数减去50;然后以2020年4月为100,计算出定基指数;再计算出2021年4月之后的同比,称为“PMI同比”。PMI=2.0031PMI(-1)-1.8399PMI(-2)+1.1974PMI(-3)-0.4188 PMI(-4)每个系数都在1%的显著性水平上异于0。R-squared=0.9819。DW统计量=1.9745,其他统计量也都很显著。拟合结果见图3,看起来很完美。但是,把拟合结果转换成PMI指数,就会发现它与统计局发布的PMI指数相去甚远(图4),比图2好不了多少。这一点也不奇怪,因为同比接近的时候,环比可以差得很远。
图4 把AR模型拟合得到的PMI同比转换成PMI指数我们用美国ISM的制造业PMI指数进行尝试,得到了类似的结果。总之,用PMI指数构建AR模型来预测PMI指数,不可能得到准确的结果。式(1)显示,2020年4月至2023年12月的PMI指数是一个AR(3)过程,R-squared很低。这意味着可以把其他因素纳入模型作为解释变量。现在我们退一步,忽略季节调整会导致末端数据不准确的问题,把如下变量也作为解释变量:(1)98个城市拥堵延迟指数的季调环比,记为yd;(3)螺纹钢、线材、热轧板卷、中厚板、冷轧板卷、镀锌板卷、彩涂板卷表观消费量之和的月均值的季调环比,记为gt;(8)规模以上工业增加值季调环比(自己计算的,不是统计局发布的),记为iva。PMI = 10.3488 + 0.7864 PMI(-1) + 0.1051YD +1.2037IVA - 0.4893IVA(-1)R-squared是0.7694,比式(1)明显提高。拟合效果见图5,明显好于图2。但是也没有好太多。这么高的R-squared,足以拟合出趋势,但不注意准确拟合出每个数据点。在45个观测中,有12个发生了方向性错误,占27%,略好于某同行的模型。 此时预测得到2024年1月PMI指数是48.1。但是由于【1】拟合优度很低;【2】工业增加值环比、拥堵延时指数环比是我们自己季调的结果,末端(2024年1月)环比不可信。【3】工业增加值不是高频数据,2024年1月工业增加值本身也是我们用其他模型预测出来的(其实从逻辑上来说,既然已经预测出工业增加值,再预测PMI就没啥必要)。因此这个预测值是不可信的。总之,我们尝试过AR模型和ADL模型之后,确认无法准确预测PMI指数。从图6看,市场对PMI的一致预期也经常不准确。 从同行看,也没能构建出漂亮的模型。例如XYZQ宏观2022年9月用厂家零售乘用车销量、国内独立焦化厂开工率、半钢胎汽车轮胎开工率等作为解释变量,拟合得到的R方为0.87,预测PMI方向变动的准确率为65.7%。FZZQ宏观2023年6月把美元指数、股指环比、信用利差作为解释变量进行拟合,得到的R方是0.72。我认为这么低的R方和准确率,只能拟合出趋势,无法拟合出每个数据点。用于预测的话,是无法令人信服的。TFZQ策略2019年5月用发电耗煤拟合PMI,并且承认“虽然模型无法做到精确,但在方向上还是具有一定参考价值”。综上所述,从理论上和实际操作上,都无法准确预测出PMI指数。前面提到:在PMI指数中,生产只占了25%的权重。由于制造业PMI与生产指数基本上是同步的(图7),如果能预测出生产指数,是不是就能判断出PMI指数的方向了?理论上是这样,但不幸的是,生产指数也无法预测。因为预测它,也面临着本文第一部分说的问题:统计局没把季节性剔除干净(图7);对高频数据进行季调,末端数据不可信。不过本文并非没有价值。它的价值就是:此路不通,请绕道。如果未来统计局能发布未经季调的PMI,并且能发布更多完善的、高质量的、高频的、生产量方面的数据,可以再度尝试拟合PMI。在此之前,建议还是根据生产量、开工率高频数据做主观判断,也就是“拍脑袋”。