组合预测在港口吞吐量预测中的研究
摘要:结合现有的港口吞吐量预测方法,选取1994年~2012年天津港口吞吐量为原始数据,将非线性回归、三次指数平滑、灰色GM(1,1)模型结合起来,采用最优权重系数法确定组合权重,对天津港口2013年~2017年吞吐量进行了组合预测。
关键词:三次指数平滑 非线性回归 灰色GM(1,1)模型 吞吐量
0 引言
港口吞吐量是港口最基本的生产指标,是衡量其发展的重要依据,是组织其生产、编制发展规划和进行建设的重要条件。同时,港口吞吐量的多少可反映港口所在城市及其腹地范围的经济状况和发展水平。吞吐量预测是港口发展战略研究的重要内容,其结果的正确性和合理性,对于科学的港口布局、基本设施投资规模、营运策略、发展战略以及与集疏运相关的综合运输的规划是十分重要的。
1 组合问题预测的提出
据不完全统计,目前已有预测方法近200种,各种预测方法在具有各自优点的同时,本身也存在一些无法避免的问题或缺陷,比如每种预测模型的建立往往需要依托一定的假设条件,模型的建立才能成立。一旦预测对象所处的环境发生变化,某些假设条件将不再成立,这样建立起来的预测模型的性能将变得很差,进而失去预测的意义。然而预测总是在不确定并且往往是不稳定的环境下进行的。通常采用两种方法来减少模型的不确定性,从而降低预测风险。第一种方法是通过从理论和实证两方面更深入地分析实际过程的特征,从而建立更准确反映实际演变模式的模型。然而对模型假设高度敏感的单个精巧的或复杂的模型面临模型设定错误的风险。第二种方法是承认构造真实模型的困难,通过考虑基于不同假设和信息来源的多个模型达到信息集成,从而降低不确定性的目的。由美国加利福尼亚大学Bates和Granger提出的组合预测思想和方法即是后一种途径的具体体现。
正因如此,本文将以天津港口吞吐量为研究对象,拟采用的预测方法是通过将多种预测方法综合而成为一种的组合预测方法,该方法将基于不同假设和信息来源的多个预测模型进行信息集成,进而降低预测目标的不确定性,以此来提高预测的准确性。
2 港口吞吐量预测方法与模型选择
本文选择时间序列法中的非线性回归和三次指数平滑法、灰色GM(1,1)模型,探讨其建模过程和检验方法,分析模型参数的选择,比较各种模型的适用范围,并采用组合预测技术来消除各单项模型中存在的随机误差。 2.1 非线性回归预测
非线性回归是一种常用的预测方法,是在寻求事物随时间变化规律的基础上,利用历史状况和现实数据,进而推测其未来发展状况。
如若能找到一个合适的函数曲线,来反映预测对象因时间变化而呈现出的某种上升或下降的趋势时,则可以利用非线性回归。该方法对模型进行选取时,常用差分法计算及散点图的描绘,具有定量估计及揭示事物未来发展状况的特性。
该方法要求至少拥有 5 年的原始数据,适用于中长期预测,常用的非线性回归有指数、龚珀兹等曲线模型,这里采用指数曲线模型。
若时间序列在总体趋势上遵循某种指数曲线的增长规律时,可利用指数曲线模型。指数曲线预测的模型为:
?t?aebt,a?0,在两边取对数后,可得lnyt?lna?bt,令Yt?lnyt,A?lna,y则有Yt?A?bt,即把指数曲线模型转化成直线模型,参数a,b利用最小二乘法估计可得:
?tY?ntY?b?? ??t2?nt2 (2-1)
??A?Y?bt2.2 三次指数平滑法
指数平滑法是对反映变量历史变化情况的统计数据(时间序列),加以大致修匀平滑,以便分析变量的演变趋势,此法可处理不规则数据。指数平滑法有一次指数平滑法、二次指数平滑法和三次指数平滑法。
指数平滑法的预测模型为: Y(t?1)??X(t)?(1??)Y(t) (2-2) 其中:X(t)是第t 期的实际值;Y(t)是第t 期的预测值;α 是平滑系数。在Excel 中,阻尼系数为1??。设时间序列为X1, X2,X3,……,Xn;用St表示指数平滑值,第t 期一次指数平滑值记为St(1),二次指数平滑值记为St(2) ,三次指数平滑值记为St(3)。
则指数平滑值计算公式为:
1)St(1)??X1?(1??)St(?12) St(2)??St(1)?(1??)St(?1 (2-3)
3)St(3)??St(2)?(1??)St(?1对预测周期为T年、基年为第t年的指标预测值Yt + T ,其三次指数平滑
法的数学模型为:
Yt?T?at?btT?ctT2 (2-4)
式中,at,bt,ct均为平滑系数,计算公式为
??a?3S(1)?3S(2)?S(3)ttt?t?? ?bt?(6?5?)St(1)?2(5?4?)St(2)?(4?3?)St(3) (2-5) 22(1??)???(1)(2)(3)c?[S?2S?S]?tttt22(1??)???2.3 灰色GM(1,1)模型
(1) 级比检验
建立上海市水平综合评价时间序列如下:
(0)(0)(0)y?(y(1),y(2),
,y(0)(8))
求得求级比?(0)(k)
?
(0)y(0)(k?1)(k)?(0)y(k)
由于所有的?(0)(k)??0.778800783,1.284025417?,k?2,3,,8,故可以用
y(0)作满意的GM(1,1)建模。
(2) GM(1,1)建模
1) 对原始数据x(0)作一次累加,得到
(1)(1)(1) y?(y(1),y(2),,y(1)(8))
2) 构造数据矩阵B及数据向量Y 3) 计算a
T?1TTa?(BB)BY?(a,b)
4) 建立模型
(0)(1)y(k)?a?y(k)?b
计算出相应的时间序列函数。
5) 求生成数列值y(k?1)及模型还原值y(k?1)。
(1)(0)3 天津港口吞吐量预测模型
表3-1给出了1994年~2012年天津港货物吞吐总量作为模型拟合和预测的
基础数据。
表3-1 1994年~2012年天津港货物吞吐量
年份 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 货物吞4652.0 5787.0 6188.3 6789.3 6818.4 7297.7 9566.3 11369.1 12906.4 16181.7 吐量 年份 2004 2005 2006 2007 2008 2009 2010 2011 2012 货物吞20619.0 24068.8 25760.0 30946.0 35593.2 38111.0 36946.0 45338.0 43744.0 吐量 3.1 非线性回归模型
图 3-1 港口吞吐量添加指数趋势性效果图
取1994-2012 年的原始数据,从上图3-1中可以看出,除各别年份外,原始数据总体上还是呈现出一定的指数关系,因而可以利用该模型进行预测,MATLAB计算结果如下: General model Exp1: f(x) = a*exp(b*x)
Coefficients (with 95% confidence bounds):
a = 7.413e-101 (-2.195e-99, 2.343e-99) b = 0.12 (0.1047, 0.1352) Goodness of fit: SSE: 1.362e+08 R-square: 0.9623
Adjusted R-square: 0.9601 RMSE: 2830
?tY?ntY??0.12?b?22t?nt利用公式(2-1)计算可得:? ??Y?bt)?7.413e?101?a?exp(?t?7.413e?101*e0.12t,拟合值如下: 得到的指数预测模型为:y表3-2 非线性回归拟合值与真实值对比 年份 1994 1995 1996 1997 1998 1999 2000 2001 实际值 4652.0 5787.0 6188.3 6789.3 6818.4 7297.7 9566.3 11369.1 拟合值 5878.167788 6627.615674 7472.615806 8425.350794 9499.556494 10710.72004 12076.30312 13615.99375 偏差 1226.167788 840.615674 1284.315806 1636.050794 2681.156494 3413.020038 2510.003121 2246.893748 相对误差 0.26357863 0.145259318 0.207539357 0.240974886 0.393223703 0.467684344 0.262379721 0.197631629 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 12906.4 16181.7 20619.0 24068.8 25760.0 30946.0 35593.2 38111.0 36946.0 45338.0
15351.99008 2445.590082 17309.32048 1127.620483 19516.20435 -1102.795652 22004.45896 -2064.341043 24809.95819 -950.0418057 27973.14975 -2972.850248 31539.63827 -4053.561726 35560.84285 -2550.157146 40094.73836 3148.738357 45206.69126 -131.3087373
MSE=2830 0.189486618 0.069684921 -0.053484439 -0.085768341 -0.036880505 -0.096065735 -0.113885847 -0.066913939 0.08522542 -0.002896218
由上表3-2可知,前面部分误差较大,后面越来越小,越接近拟合值,2006年以后的相对误差大多数都小于5%,MAPE为4.63%<5%,说明真实值与预测值间的拟合状况较好,其预测值可以作为参考。2013-2014年的数据预测如下表3-3所示。
表3-3 非线性回归的预测值 年份 2013 2014 2015 2016 2017
港口吞吐量 57468.97 64796.08 73057.38 82371.96 92874.13
3.2 三次指数平滑法
图 3-2 给出了天津港 1994-2012 年的吞吐量发展趋势曲线图。
依据图3-2,可以看出天津港的吞吐量发展趋势是曲线型的,因此采用三次 指数平滑法,分为三个步骤:
1. 确定初始值,取任意一个?值进行计算拟合值、均方差、预测误差;

