长期以来,由于历史等各种原因,经济学的定性分析与定量分析在学术界一直存在争论。自从有了大数据,各种非结构化数据特别是文本数据所包含的有价值信息便引起了经济学家与计量经济学家的广泛关注。众所周知,语言是人类进行信息沟通与情感交流的主要工具,因此文本数据包含结构化数据所没有的很多有价值信息,特别是经济主体对政策变化与外来冲击的心理反应,包括预期、情绪、情感等信息(洪永淼等,2023)。Shiller (2019)指出,相对于结构化经济数据,文本数据包含很多关于经济运行与经济发展的丰富信息。因此,从文本数据提取各类经济主体心理信息便成为一种有效方式,这种方法比传统的心理数据构造方法(如信心与预期统计调查数据、心理学实验测度法)具有不少优势,特别是在样本代表性和抽样频率等方面。从文本数据提取心理因素的主要工具是自然语言处理技术,目前经济学与其他社会科学常用的方法包括词频法,词袋法,主题法等(Gentzkow and Kelly,2019)。通过文本数据测度心理变量,打破了定性分析和定量分析的界限,使原来只能进行定性分析的很多经济学问题,转变成可以进行定量分析。目前,从文本数据提取经济主体心理信息的常用方法简单可行,但也存在一些缺陷,如所构建的心理变量大多存在不可忽视的测度误差,这些测度误差在回归分析时可能会造成估计偏差(洪永淼等,2023)。而且,目前几乎所有基于文本数据的心理变量测度都是通过加总而得,很多微观层面的心理异质性消失了。举一个简单例子,如果在一个文本数据中,一半的人是悲观情绪,另一半的人是乐观情绪,则基于关键词加总而得到的情绪指数可能在整体上既不表示悲观也不表示乐观,原有的异质性情绪消失了。在这方面,基于互联网海量文本数据训练的ChatGPT可用于构建微观层面(如每个消费者、投资者)的心理变量,避免由于加总而导致异质性心理信息的损失。ChatGPT是目前自然语言处理领域最先进的技术,可借助其拥有的几乎整个互联网信息与知识,比较准确解读文本数据的语法结构与上下文语义,从而比较准确从文本数据中提取心理信息。
ChatGPT是一个大语言模型,拥有1750亿个参数,但它的输入是文本数据,输出也是文本数据,换言之,作为一种通用生成式人工智能技术,ChatGPT主要用于定性分析,但这种定性分析的基础却是一个超高维的极其复杂的大语言模型。ChatGPT本身是定性分析与定量分析的高度统一,在这里,大语言模型的复杂度越高、训练的文本数据越多,ChatGPT定性分析的准确性、逻辑性与智能性也就越高。一段时间以来,中国经济学界对经济学研究出现过度数学化、模型化的现象提出了一些担心与批评(洪永淼和汪寿阳,2020;李志军和尚增健,2020)。这些批评大多数是中肯的,有助于在经济学研究中避免误用、滥用数学模型,特别是避免只注重数学模型而轻视经济思想的不良倾向,但这种批评不能被变为妨碍使用数学和模型的借口。ChatGPT的诞生表明,高度数学化、模型化与精准的定性分析是可以统一的。钱学森等(1990)早就提倡发展定性分析与定量分析相结合的综合集成分析法,以研究包括人类经济社会系统在内的复杂系统或复杂巨系统。大模型范式本质上是大数据与人工智能催生的一种新的系统分析方法,能够将定性分析与定量分析有机融合在一起,非常适合于研究复杂经济社会系统。
经济理论构建大都通过经济学建模。经济学建模的基本方法论是:基于偏好、技术、资源、禀赋、制度、行为(如预期)等假设,借助数学等逻辑工具的演绎推理,研究少数关键经济因素对经济主体决策与宏观经济运行的影响。在建模过程中聚焦少数主要经济变量而忽略其他次要因素的影响(通过假设其他因素不变),既是数学抽象的必然要求,也是保障模型的经济可解释性的有效方法。正如列宁(1990,第142页)所指出的,“物质的抽象,自然规律的抽象,价值的抽象以及其他等等,一句话,一切科学的(正确的、郑重的、非瞎说的)抽象,都更深刻、更正确、更完全地反映着自然”。然而,从预测角度看,一个具有很强经济可解释性的简约经济学模型,其预测能力不一定精准。一个主要原因是影响现实经济社会活动的因素成千上万,繁多复杂。为了说明这一点,我们考察以下预测模型:
其中是可观测预测变量的集合,是可观测因变量,是所有不可观测的因素对的影响的总和。为简单起见,这里假设可观测变量集合和不可观测变量集合是可分的。统计学家与计量经济学家经常称为信号(signal)而称为“噪声”(noise),模型对的预测能力取决于“信噪比”(signal to noise ratio)。如果信号强,则预测能力强;反之,如果信号相对噪声较弱,则的预测能力将较差。在小数据场景下,很多因素不可观测,这些不可观测因素的影响都被归到噪声中,因此信噪比较弱,的预测能力较差。相反,在大数据场景下,可观测信息集显著扩大,因此信噪比大幅提升,这为改进预测精准度提供了一个可能性,而大模型正是实现这种可能性的一个重要方法与工具。
统计学与计量经济学的一个基本建模原则是“保持模型简约”(Keep It Sophistically Simple) (Zellner et al., 2001)。任何一个模型需要有足够的能力去捕捉数据中有价值的信息,在此前提下,模型越简单越好。这样既可减少模型偏差,又可控制模型复杂度,减少模型过拟合的可能性。统计学与计量经济学一直存在建模方法论的争论,例如20世纪统计学参数与非参数建模的方法论之争,即统计学家罗纳德·费希尔(Ronald Fisher)的“小模型”与卡尔·皮尔逊(Karl Pearson)的“大模型”之争。费希尔主张使用参数模型,即函数形式已知的模型(如线性回归模型),其中未知参数的维数不大,因此可称为“小模型”。费希尔不鼓励使用非参数模型,他认为非参数模型涉及很多参数,可能会导致过度的估计误差,出现过拟合现象。皮尔逊则认为,非参数模型在样本容量增加时,其未知参数数量相应增加,因此模型偏差会越来越少,最终趋近于零;但在参数模型中,虽然参数数量较少,如果模型错误设定,则模型偏差将无法消除,不管样本容量有多大,因此皮尔逊不鼓励使用参数模型。这两种建模方法一直存在争议,深刻影响了统计学的发展。有趣的是,计量经济学也有类似的建模方法论之争,即罗伯特·恩格尔(Robert Engle)的“小模型”与大卫·亨德里(David Hendry)的“大模型”之争。诺贝尔经济学奖获得者恩格尔主张“从特殊到一般”的建模方法,即从一个特定的小模型出发,应用计量经济学诊断等方法拓展原有模型,这是从简约模型到复杂模型的建模方法;而伦敦政治经济学院计量经济学派代表人物亨德里则主张从“一般到特殊”的建模方法,即从一般的大模型出发,通过统计假设检验与经济理论约束等方法降低模型维数获得简约模型,这是从复杂模型到简约模型的建模方法。恩格尔的建模方法比较适合于小数据场景,因此模型复杂度不能太大。亨德里的大模型方法论则比较适合大数据场景,其最大优点是模型偏差较小,所获得的结论对模型的依赖性不会太大。但是,无论是统计学还是计量经济学,这些方法论之争背后都蕴藏着相同的思想,即获得一个既有较好经济可解释性又有较强泛化能力的简约模型。在统计学与计量经济学,获得简约模型的主要方法是降维。常用的经典降维方法有主成分分析法、因子模型、AIC和BIC等模型选择准则、投影寻踪回归(projection pursuit regression)与单指标模型(single index model)等,所选择的最佳模型通常具有较低的复杂度和较强的预测能力。此外,也可通过经济理论约束条件进行降维,例如经济主体具有风险厌恶的特征,则其效用函数必定是凹函数。又如,如果市场有效性假说成立,那么所有历史信息都无法预测未来的回报率,因此预测模型的滞后项预测变量的系数都应该为零,这样可帮助简化模型。
最近,机器学习和统计学的交叉融合产生了一个称为统计学习的新领域,其中Tibshirani (1996)的套索(LASSO)回归是一个非常重要的降维方法。假设一个高维线性回归模型包含个解释变量,共有个未知参数,模型参数维数比较大,甚至有可能出现大于样本容量,在后面这种情况下就无法用最小二乘法估计参数。但如果稀疏性假设成立,即个参数中只有少数几个参数的数值不为零,则可通过引入一项惩罚项控制所有未知参数绝对值之和来估计未知参数。这样虽然会牺牲模型偏差,但能够显著降低估计误差与均方误差,最终识别出那少数几个系数不为零的重要变量,并将所有系数为零的变量全部剔除。这是LASSO降维的基本思想。在计量经济学与统计学,几乎所有降维预测方法都是基于类似的思想。简单地说,假设有一个预测模型,通过训练数据得到很好的拟合效果,训练数据既包含对样本外预测有用的信号,也包含对样本外预测无用的噪声(一般情况下,样本外数据中的噪声与训练数据中的信号和噪声之间没有相关性)。如果一个模型在训练时使用过多的参数,则所得到的模型不仅会捕捉有用的信号,还会捕捉到很多无用的噪声,这些包含在模型中的训练数据噪声对样本外预测不但没有帮助,反而会造成干扰。因此,要获得一个能够准确预测的模型,就需要在拥有足够强的信号的情况下避免捕捉太多的噪声。降维可以帮助解决这个问题,因为它可以控制模型复杂度,大幅减少噪声的影响,从而提高样本外预测的精准性。
长期以来,统计学与计量经济学所使用的数据大都是“小”数据。这里所说的“小”数据并不仅限于几十或几百个样本点,也可能包括几十万维度的文本数据。但是,相对于人类拥有的海量大数据来说,大量的大数据信息尚未被有效挖掘与充分利用。例如,Engle and Russell (1998)基于高频金融交易数据提出了一个自回归条件久期模型。当时还没有大数据的概念,但金融学已经有了逐笔交易这样的高频大数据。Engle and Russell (1998)拥有的数据容量达100多万,但只使用了其中不到5%的数据。为什么计量经济学一直使用小模型与小数据?首先,小模型容易解释,特别是每个参数都可以有丰富的经济含义。其次,现实数据量有限,无法支持大模型的训练。最后,计算资源受到约束,包括数据的存储容量、处理能力和运算速度等。因此,长期以来,小模型一直是统计学与计量经济学的主流方法论。
大量实证研究(Kelly and Xiu,2023)表明,在预测经济与金融市场变化趋势方面,机器学习在很大程度上改进了传统计量经济学模型,但其预测准确性尚未达到令人满意的程度。一个根本原因是人类经济社会系统是一个高度复杂系统,受到成千上万的相互关联的变量的影响,涉及政治、经济、社会、法律、政策、技术、历史、文化、心理、环境等各种因素。与自然界不同,经济系统受人类心理影响大,而人类心理本身存在很大的不确定性。经济主体在面临不确定性时通常形成一种预期,如果预期过高或过低,就会产生悲观或乐观的情绪。这样的情绪会影响人们的经济行为,如影响投资选择和消费倾向等。客观存在的经济社会活动影响人类心理,而人类心理反过来又会影响经济主体的行为与经济社会系统的运行,这种心理影响称为“反身性”。此外,经济主体存在明显的异质性,如不同所有制的企业,不同收入水平的消费者,其行为特征包括对经济政策与外生性冲击的反应以及所受到的影响是不一样的。最后,由于偏好、技术、环境、人口、政策与制度等变化,经济系统具有时变性,时变性可以是突变,也可以是缓慢变化。反身性、异质性、交互性以及时变性对预测未来会产生重大影响。为了显著改进经济金融预测,可以考虑大模型范式。由于其灵活性,大模型可以容纳互相关联的高维变量,刻画经济主体的异质性、变量之间的非线性与交互性,以及模型参数的时变性,从而大幅度降低模型误差,提高预测精准度。最近,Lopez-Lira and Tang (2023)使用ChatGPT判断关于上市公司的新闻标题对上市公司股价是好消息、坏消息或无关消息,并给出理由与情绪积分。他们的研究发现,这样构建的“ChatGPT积分”与上市公司日收益率存在正相关关系,而更基础的大模型如GPT-1和GPT-2等并不能精准预测收益率,因此ChatGPT较强的股票收益率预测能力是由于使用更复杂的大模型即GPT-3.5而获得的结果。
事实上,计量经济学与统计学已存在一些“大”模型。这里所说的“大”模型是指模型所包含的未知参数维数比统计学与计量经济学常用模型的参数维数要大很多,但可能远远小于ChatGPT与大语言模型的参数维数,而且输入数据也不一定是文本数据,可以是结构化数据。在经济学与计量经济学,“大”模型并不少见。例如,预测科学领域的模型组合是一个大模型(Sun et al., 2021, 2023)。假设有多个预测模型,将这些模型线性组合成为一个大模型,可以提供比较稳健的预测。使用单一模型进行预测,就像购买高回报与高风险股票一样,而使用模型组合则类似于购买共同基金,虽然回报率较低,但更加稳健而风险较小。由于每个预测模型都有一些未知参数,如果将很多不同预测模型线性组合起来,形成一个大模型,则这样的大模型的参数维数就相当可观。例如,假设共有个模型,每个模型有个未知参数,则组合模型的参数维数(包括组合权重系数在内)将达到。如果允许参数与组合权重系数具有时变性,则未知参数值的总数目达到,将随时间样本容量的增加而增加(Cui et al., 2023a)。在金融计量经济学,多元GARCH模型的估计由于维数灾难等原因是一个长期没有解决的计量经济学难题(Engle, 2002)。假设有个资产,则这个资产相对于历史信息集的条件方差-协方差是一个维半正定对称动态矩阵。当对这个矩阵进行多元GARCH建模时,如果这个矩阵模型的每个元素包含个未知参数,则多元GARCH模型未知参数的维数将达到。当或较大时,未知参数的维数将接近甚至超过时间序列样本容量,导致多元GARCH模型参数估计具有高度挑战性(Cui et al.,2023b)。金融计量经济学家已提出各式各样的多元GARCH模型,通过各种约束条件降低参数维数,但仍然没有从根本上解决高维多元GARCH模型的参数估计问题。
经济学还有其他类型的大模型,如可计算一般均衡模型。假设存在2000种商品,则需要2000个需求模型,2000个供应模型,共2000个联立方程式。如果每个需求或供给模型各有10个未知参数,那么总共需要估计40万个参数。在微观层面,Lanier et al. (2023)考虑估计一个高维超市商品需求模型,其中共有4368种商品,每种商品用一个24维的未知特征向量来刻画,异质性消费者共分为30类,每类消费者的效用函数均是二次型,但不同类消费者的效用函数参数值不同,这个大型需求模型共有105549个未知待估参数,参数维数比较大,但可避免商品加总导致的信息损失,能够比较精准评估商品需求弹性、商品替代效应以及消费者福利如何随商品价格或税率变化而变化。20世纪六七十年代,诺贝尔经济学奖获得者劳伦斯·克莱因(Lawrence Klein)推行一个名为“世界连接模型”(world link model)的全球宏观经济模型。到20世纪90年代,该模型有70个国家参与,共有2万个联立方程,如果每个方程有10个未知参数,则将拥有超过20万个未知参数。另一个宏观计量经济学大模型是高维向量自回归(vector autoregression,VAR)模型与高维结构化向量自回归(structural VAR,SVAR)模型。VAR与SVAR模型(Sims, 1980)是一个标准的宏观经济分析工具,广泛应用于宏观经济实证研究与政策分析。但是,一个主要困难是VAR与SVAR模型的参数维数会以内生变量维数的平方而快速增加。例如,一个100维、含二阶滞后项的VAR模型,将拥有至少20000个未知参数,远远超过常见的宏观经济数据样本容量,由于这个原因,VAR与SVAR模型通常只用于刻画小型宏观经济系统,如货币-产出-通货膨胀构成的小模型。基于大量小型经济系统的研究使相关研究趋于碎片化,研究结果呈现局部性与片面性,无法刻画宏观经济系统的整体特征与复杂关联。近年来,一些研究使用因子增扩(Bernanke et al., 2005)、贝叶斯压缩(Bańbura et al., 2010; Chan, 2023)以及正则化(Basu and Michailidis,2015)等降维方法来估计高维VAR与SVAR模型,从而可以涵盖高维宏观经济指标集。
尽管这些计量经济学大模型早已存在,但由于数据量不足以及算力与算法的限制,它们并没有得到广泛应用。随着大数据的可获得性与计算机技术的快速发展,现在已到了可以应用大模型的时候。为此,需要构建统一的大规模数据库,尤其是利用人工智能技术来整合异源、异构、异频等各类数据。另外,为了训练这些大模型,需要大力加强计算基础设施建设,确保拥有足够的计算资源,特别是算力与算法。
4.6 计算机算法与计算经济学
计算机技术特别是算法的发展,为经济学研究提供了一种新方法与新工具。李拉亚(2014)对计算机算法作为研究工具而影响经济学研究范式以及计算机作为技术而影响生产力与生产关系,作了系统的论述与颇具前瞻性的推测。前文提到,计算社会科学基于大数据,使用人工智能技术方法挖掘变量之间的逻辑关系,这是一种数据密集型的研究范式,其中算法发挥关键作用。在计算社会科学诞生之前,就已存在计算经济学、计算金融学等学科。例如,计算经济学一个著名的模型是可计算一般均衡模型。早在19世纪70年代,经济学“边际革命”代表人物之一莱昂·瓦尔拉斯(Walras,1874)便提出了一般均衡论,Wald (1936)给出一般均衡存在的第一个数学证明,后来Arrow and Debreu (1874)提供了更为严格的证明。这些证明将一般均衡的存在性视为一个不动点问题,然后运用数学不动点定理给予证明。这些数学证明建立了严谨的一般均衡理论,但并没有给出如何求解一般均衡价格的方法。Scarf (1967)开创性提出的不动点算法,能够将不动点计算出来,这不仅推动经济数学的发展,也奠定可计算一般均衡理论的坚实基础,使一般均衡论具有广泛的实际应用价值。可计算一般均衡模型常用于政策评估。
众所周知,数学在经济学研究中扮演着重要的方法与工具作用,然而当人类经济社会系统变得过于复杂时,数学无法刻画经济主体的行为,更谈不上求解结果,尤其对于高维复杂系统,数学往往力不从心。在这种情形下,可以采用计算机模拟仿真的方法与技术研究经济行为。在这个领域,一个广泛流行的模拟方法是基于经济主体的计算经济学模型,这个方法综合应用经济学、仿生学和计算机技术(特别是算法)来研究经济主体的行为特征与复杂经济系统的运行规律,其中一个著名例子是基于行为主体的模型(agent-based model,ABM),这个模型使用计算机模拟仿真技术,研究遵从简单规则的大量经济主体的行为如何产生复杂的宏观经济特征(如泡沫)。
随着大数据与大模型日益广泛的应用,对算法特别是有效算法的需求越来越大。在计量经济学,理论计量经济学家长期专注研究计量经济学模型与方法的数学性质,特别是概率性质与统计性质,如统计估计量与检验量的一致性、有效性、渐近分布等大样本理论,对计算机算法的研究相对较少,也不擅长算法的研究,这是计量经济学与经济学在大数据与大模型时代的一个明显短板。在20世纪90年代,许多应用经济学家将人工神经网络模型应用于经济金融预测。尽管大多数实证结果都具有样本内统计显著性,但人工神经网络模型的样本外预测能力却比较差,特别是如果采用一些模型选择准则,如AIC或BIC准则,通常会发现简单的线性回归模型的样本外预测会比人工神经网络模型要好得多。现在看来,有几方面的原因:首先,大多数计量经济学家擅长数学推导,但不擅长计算机算法。其次,在90年代,许多经济金融数据大都是小数据,还没有可用的海量大数据,甚至大数据概念也不存在。最后,最根本的一个原因,是算力与算法的限制。在20世纪90年代,计算机的算力无法支持使用海量数据训练人工神经网络模型。因此,那时的人工神经网络模型在经济金融预测的表现不理想,这并不是因为该模型不好,而是由于当时数据、算法、算力等都存在许多客观限制。可以预计,以算法为核心的计算经济学与计算计量经济学将进入一个快速发展时期。
计算机科学一个重要的研究范式是定量经验研究,即通过基于算法的计算机模拟仿真实验与实际应用的方式研究计算机算法的性质及其应用。这种经验研究范式推动了算法、大模型计算机科学的快速发展,这值得经济学家和计量经济学家参考与借鉴。
5.人工智能与ChatGPT 的局限性
目前,人工智能特别是以ChatGPT为代表的大模型备受推崇,但这并不意味着包括ChatGPT在内的各种人工智能技术不存在缺点与不足。洪永淼和汪寿阳(2023)对此进行了讨论。这里,我们进一步深入阐述人工智能作为研究方法与研究工具在经济学研究中的局限性。
首先,人工智能是模仿人类认知过程而发展起来的一种数字技术,它具有卓越的理性思维能力,可以模拟人类的认知思维过程,但却无法感知人类的直觉和情感,如幸福、快乐、疼痛与悲伤等。我们常说人工智能可以“理解”文本数据,但实际上它并没有人的意识或理解能力。例如,当一个人听到“中国”这个词时,便可能会想起它作为一个国家拥有的960万平方公里的领土面积、56个民族、14亿人口,以及5000年的悠久历史。但人工智能却无法像人类那样理解“中国”的内涵。人工智能看到“中国”这个词时,它用一个高维向量来刻画,并从大量的文本数据中寻找出现该词以及相关单词或词组的概率分布,据此进行预测。毫无疑问,在理性思维方面,人工智能可能会超过人类,但在感性思维方面,它是有所欠缺的。正如ChatGPT在接受《时代周刊》采访时(Perrigo,2022)所说:“作为大语言模型,我只是一个机器学习模型,没有人类的知觉或意识。我没有思想、感觉或过往,无法做出决策或独立判断”。“我们无法理解所生成词汇的上下文语境或含义,只能根据给定的训练数据,根据某些单词或词组一起出现的概率生成文本”。由于人工智能只具备预测能力,而没有人类那样的思维意识、批判性思维和想象力,所以经济学家和计量经济学家从事的创造性研究工作不可能被人工智能替代,特别是人工智能(包括ChatGPT)无法从现有数据推断出任何重大原创性的学术成果,它只能在人类已有的海量知识和信息库中产生各种排列组合。
人类学习与机器学习还有一个重要的区别:由于人工智能是基于概率预测,因此需要足够多的数据才能获得较好的学习能力,但人的学习能力不一定要经过多次重复才能获得。例如,一个小孩用手去触摸一个烧开冒气的水壶,他只要摸过一次就不会再摸第二次,不管水壶的形状、颜色是什么。相反地,机器需要“看到”很多水壶的照片或视频,才会得到不要去触摸烧开的水壶的结论。正如美国语言学家诺姆·乔姆斯基(Chomsky et al., 2023)所指出的,“人脑与ChatGPT之类的工具不同,它不是一个笨拙的模式匹配统计引擎,先狂塞进数百TB级数据,再推测出可能性最大的对话答复或某个科学问题的答案。相反,人脑是一个非常高效甚至优雅的系统,只需要少量信息即可运作;它不推断数据点之间的直接关联,而是创造解释。”
第二,经济学实证研究最主要的目的是因果推断。长期以来,人类的思维方式一直是通过逻辑推断,特别是因果推断,来认识世界和改造世界。所谓因果推断,是指在控制所有其他解释变量不变的条件下,观察某一解释变量的变化是否会引起因变量的变化。例如,只让政策变量发生变化,观察GDP是否会随之变化。实验方法,特别是随机控制实验,是识别经济学因果关系的最直观、最有力的方法。但遗憾的是,在人类经济社会活动中,绝大部分的经济数据是基于观测而得,并非是精心设计的实验结果。
人工智能可以用于因果推断(Athey, 2019; Athey and Imbens, 2019)。由于其出色的泛化能力,人工智能能够比较精确地估测虚拟事实,从而显著提升因果推断与政策评估的有效性与精准性。但是,大数据特别是经济大数据几乎都是观测数据,包括大模型在内的人工智能算法事实上是统计学方法,而基于观测数据、运用统计学与计量经济学方法进行因果推断本质上是一种统计关系推断(Leamer, 1983)。这种统计关系需要在增加很多额外假设的条件下才可以被解释为经济学因果关系。如果放弃这些假设,或者这些假设不成立,这种关系只能视为一种统计关系。基于观测数据的人工智能因果关系本质上只是在计算机(即电脑)中两个变量之间的统计关联,即两个事件或两个变量同时或先后出现的概率非常高,计算机基于大数据能够捕捉到这种统计关联,并将其推断为因果关系。因此,人工智能因果关系类似于英国哲学家休谟所定义的因果关系。休谟认为,每次太阳升起,石头变热,这两个现象日复一日共现在人的脑海中,形成了一种惯常的联系,这种联系被休谟称为因果关系。因此,人工智能因果关系和经济学因果关系并非完全一致。要识别经济学因果关系,不能仅仅依靠基于计量经济学与人工智能的因果推断方法,还必须引入实验经济学(如随机控制实验)等方法。如果要将基于观测数据的人工智能因果关系解释为经济学因果关系,则需要经济理论的指导,而且,这种因果关系解释也只是一种可能性,即人工智能因果关系与经济学因果关系是相容的或不互相排斥,但并不意味人工智能因果关系就一定是经济学因果关系。
第三,人工智能特别是大模型正在推动经济学与社会科学研究范式的变革,特别是从模型驱动范式到数据驱动范式的转变,但仍需要与经济理论相结合,增强算法的经济可解释性。任何模型都是建立在各种假设基础上,模型驱动范式所获得的结论很可能具有模型依赖性,致使不同模型可能导致不同的结论(Breznau et al., 2022)。这就是为什么那么多经济学实证研究都要考虑所谓的稳健性检验(robustness check),即检验在不同的模型条件下是否能够得到相同或类似的结论。相反地,数据驱动范式试图通过使用与具体模型无关的算法,通过算法直接从数据中获得经济变量之间的逻辑关系,以得到与具体模型无关的稳健结论。但是,数据驱动范式所依赖的算法特别是大模型,大多是“黑箱”,缺乏经济可解释性,这是人工智能特别是大模型最大的一个弱点。数据驱动范式必须与经济理论相结合,才能拥有经济可解释性。因此,数据驱动模式可获得比较稳健的结论,但它并不能取代经济理论的指导。
第四,人工智能和以ChatGPT为代表的大模型没有改变经济学乃至社会科学实证研究的本质特征,即从样本推断总体性质的归纳范式。人工智能特别是大模型强化了以数据为基础的实证研究范式,但这种人工智能归纳推理在实践中依然可能会出现错误,类似于统计学的第一类错误和第二类错误(洪永淼,2021)。需要注意的是,虽然ChatGPT和其他大模型使用了海量大数据甚至是几乎整个互联网的文本数据,样本容量极其庞大,但这并非全样本。人类经济社会发展是一个漫长的历史过程,现有互联网大数据虽然样本容量庞大,却仅代表这个历史过程的一部分。此外,人类经济社会发展在各个历史阶段会呈现出一些独特的特征,导致经济运行规律具有历史性或时变性特征,这使人工智能在推断与预测人类经济社会未来变化趋势仍然面临巨大的挑战,人工智能没有改变经济学作为一门历史科学的本质特征。
第五,人工智能以及ChatGPT等大模型所使用的数据是来源于互联网的开源数据。互联网开源数据中存在大量不真实和虚假的信息,也包含很多违背当今社会伦理与道德规范的内容,还可能出现样本选择偏差的情况。例如,如果有关某个事件的文本数据只有少数几篇文章,而这些文章根本无法代表社会大多数人的观点,只能代表少数人的意见,当人工智能分析这些数据时,很可能会将这些个别人的意见视为是代表性意见,导致偏见甚至“幻觉”的出现。互联网大数据也可能存在“样本选择偏差”问题,如“数字鸿沟”导致的样本偏差。互联网大数据无法反映不上网或很少上网的群体的经济行为信息,这个群体可能包括了年长者、西部地区和农村地区的群众,数字鸿沟在这些情况下是不可避免的。因此,ChatGPT提供的各种答案,其真实性、客观性以及代表性无法得到保证,其根本原因就在于,它所使用的开源数据的真实性与代表性无法进行验证。由于数据质量原因而产生的风险,可称为数据风险。随着数字经济的蓬勃发展,数据成为关键的生产要素,因此必须防范由于数据可靠性问题而引起的数据风险。数据可靠性与数据质量是约束包括大模型在内的人工智能可靠性的最基本因素。
第六,除了大数据可靠性问题引起的数据风险外,还存在由于模型或算法本身的泛化能力问题而产生的模型风险或算法风险。造成模型风险或算法风险的原因很多,包括大模型的训练算法与训练时间、算法本身的有效性等,但最主要的一个原因是数据漂移(data drift)和模型漂移(model drift)所引起的模型或算法泛化能力下降的问题。技术进步、人口结构变化、偏好变化、政策变化以及诸如新冠疫情大流行和地缘政治军事冲突等重大外生冲击,都会引起经济主体的预期与行为的变化,从而导致经济结构与经济关系发生变化。上述变化首先会引起大数据的分布变化,这种变化可能是突变式的,也可能是渐进式的,或者两者兼之。比如,在文本数据中,随着经济社会快速变化与发展,很多新的网络语言不断出现,而一些旧网络词语也会被赋予新含义,从计量经济学与统计学视角看,这些互联网文本数据具有显著的时变性或不平稳性,这种数据时变性称为数据漂移。由于漂移数据与原先用于训练模型的数据可能存在显著差异,数据漂移会导致模型或算法的样本外预测能力即泛化能力的弱化。除了引起数据漂移之外,技术、人口、偏好、政策变化以及外生冲击等因素还会引起经济变量之间的关系发生变化。由于模型或算法是基于已知数据特别是历史数据进行训练,模型无法刻画经济关系的新变化,从而影响模型或算法的泛化能力,这种现象称为模型漂移。尤其是大模型,由于其训练数据量庞大、训练时间长、训练成本高,无法经常或及时更新训练,在刻画变量之间关系的新变化方面存在一定的时滞,模型漂移的程度可能会更加严重,导致大模型的泛化能力显著下降。目前,ChatGPT和大模型正在日益广泛地应用于经济社会各个领域,由数据漂移和模型漂移而产生的模型风险或算法风险正在成为一种日益重要的新风险。这种模型风险或算法风险不仅对经济主体的行为和经济运行产生深远的影响,也对经济学乃至社会科学研究范式的变革具有重要影响。
6.总结与展望
我们正处于大经济、大科技、大数据、大模型的新时代。数字技术革命与新一轮工业革命对人类生产方式、生活方式与思维方式产生重大变革,也在深刻改变社会治理方式。数字经济特别是大科技平台等新经济形态的出现,与中国超大经济规模的优势相结合,催生了新的经济运行模式与运行规律。例如,很多数字技术包括各种算法,一旦开发出来并投入市场,其使用的边际成本便几乎为零。数字经济每时每刻产生海量经济社会大数据,其中互联网和移动互联网的兴起与广泛应用,涌现出海量的消费和流通大数据,而当下物联网和工业互联网的蓬勃发展,正在产生海量生产与供应端大数据,这些大数据既是数字经济关键的生产要素,也为经济学、管理学乃至社会科学的研究提供大量素材。挖掘、处理、分析海量大数据的主要工具是人工智能技术。以ChatGPT为代表的大模型是人工智能在自然语言处理技术领域的一大突破,对经济学与社会科学研究范式将产生深远的影响。
长期以来,经济学理论构建与创新主要是通过经济学建模与计量经济学建模。经济学建模大多建立在关于偏好、技术、人口、资源、制度、行为等因素的假设基础之上,通过数学等逻辑工具的演绎推理,聚焦少数关键经济变量,研究经济主体行为与经济运行规律。这种小模型范式能够聚焦所研究问题的最本质的特征与内在联系,模型的经济可解释性也比较强。但是,由于人类经济社会系统是一个高度复杂系统,其影响因素成千上万,且它们之间的关系错综复杂,并且具有显著的异质性、交互性、非线性、时变性等特征。为了更好刻画复杂经济社会系统的动态演变规律,精准预测其未来发展变化趋势,应该采用系统分析方法。作为大数据与人工智能时代的一种新的系统分析方式,大模型可以弥补小模型范式的不足与局限性,为经济学与社会科学研究提供新的研究范式与研究方法。
热力学与统计物理学的发展历史为我们提供了有益的启示。在19世纪和20世纪之交,整个经典物理学理论大厦已构建起来,物理学家曾欢呼物理学晴朗的天空只飘着两朵乌云,其中之一是热辐射问题。物理学家威廉·维恩(Wilhelm Wien)通过实验结果得到维恩公式,该公式可以很好拟合短波范围的黑体辐射数据,但在长波范围内拟合效果不佳。另外两位物理学家瑞利勋爵(Lord Rayleigh)和詹姆斯·金斯(James Jeans)根据经典电动力学和统计力学推导出热平衡辐射能量分布公式,该公式适用于长波范围的黑体辐射数据,但在短波范围内拟合效果不佳。后来,马克斯·普朗克(Max Planck)提出了黑体辐射定律的通用公式,既适用于短波范围也适用于长波范围,完美地解释两种波长范围内的实验数据。长期以来,经济学与计量经济学的实证研究几乎只使用小模型。在大数据与人工智能时代,应该尝试大模型范式,探索以ChatGPT为代表的大模型对经济学研究范式可能带来的影响。应当指出,强调大模型并不意味着小模型就不重要,因为它们适用范围不同,就像分别适合于短波、长波的黑体辐射公式那样。我们应该将小模型范式和大模型范式辩证统一起来,以获得对复杂经济社会系统运行规律的深刻认识。
参考文献:略
作者简介
洪永淼, 中国科学院数学与系统科学研究院, 中国科学院大学经济与管理学院, 中国科学院大学数字经济监测预测预警与政策仿真教育部哲学社会科学实验室, 研究方向: 计量经济学、时间序列分析、金融计量学、统计学, E-mail: ymhong@amss.ac.cn;
通信作者
汪寿阳, 中国科学院预测科学研究中心, 中国科学院大学经济与管理学院, 中国科学院大学数字经济监测预测预警与政策仿真教育部哲学社会科学实验室,研究方向: 金融系统工程、经济分析与预测, E-mail: sywang@amss.ac.cn.