1. 项目概述:当机器学习遇见计量经济学
在金融预测和资产配置的战场上,我们手里握着的武器越来越先进。深度神经网络(DNN)能从海量数据中捕捉非线性关系,傅里叶级数回归能优雅地拟合周期性波动,各种机器学习模型层出不穷。但一个现实而尖锐的问题是:当我们用这些“黑箱”或复杂模型做出一个点预测后,这个预测到底有多可靠?模型A和模型B给出的预测,其不确定性在统计意义上有没有本质区别?更进一步,我们如何将这种“不确定性”量化,并融入到投资决策中,构建一个真正“稳健”的投资组合,而不仅仅是一个在历史数据上表现优异的“纸老虎”?
这正是“机器学习预测的渐近等价性与稳健投资组合优化”这一交叉领域研究的核心。它试图在机器学习强大的预测能力和计量经济学严谨的统计推断之间架起一座桥梁。简单来说,其核心思想可以打一个比方:想象两位厨师,一位用复杂的分子料理技术(好比DNN),另一位用传统的慢炖手法(好比傅里叶级数),来还原同一道经典菜肴(真实的数据生成过程)。尽管烹饪过程天差地别,但只要他们技艺足够精湛(满足模型的正则条件),最终成菜的口味(预测值)与理想口味(真实值)的偏差,在品尝足够多次(样本量增大)后,其统计分布会趋于一致。这个“趋于一致的偏差分布”,就是渐近等价性。
这个理论发现的价值巨大。它意味着,我们可以绕过对特定模型内部复杂结构的纠结,直接为预测误差建立一个统一的、模型无关的统计推断框架。基于此,我们可以计算出预测的标准误(Standard Error),从而构建置信区间。在投资组合优化中,传统的均值-方差模型只关心预期收益(点预测)和协方差矩阵,完全忽略了预期收益这个输入值本身的不确定性。而稳健优化则要求我们:“既然你告诉我这个股票预期收益是8%,但可能有±2%的误差,那么在做资产配置时,你就必须把这个±2%的风险考虑进去。” 最终得到的权重,往往会对那些预测不确定性高的资产进行“降权”或“软阈值”处理,从而得到一个更经得起现实考验的组合。
2. 核心原理:预测误差的渐近统一表示
为什么截然不同的机器学习模型,其预测误差会展现出渐近等价性?关键在于一个深刻的计量经济学洞察:在一定的正则条件下,任何“表现良好”的机器学习预测器的预测误差,都可以被一个统一的、线性的表达式所主导,而这个表达式与模型的具体形式无关。
2.1 从预测误差到线性表示
让我们形式化地理解这个过程。假设我们有N个资产,T个时间点。对于资产i在时间t的收益y_i,t,我们用一个包含滞后变量x_i,t-1的函数g(x_i,t-1)来预测。机器学习模型(无论是DNN还是傅里叶级数)给出的估计函数记为ĝ。我们关注的是样本外预测,即在时间T,对所有资产未来一期z_T+1 = Σ w_i * g(x_i,T)的预测,其中w_i是已知的权重(例如,在构建投资组合指数时)。
核心的推导始于一个启发式展开。预测误差ĝ_T+1|T - z_T+1|T可以写为权重w_j乘以每个资产预测误差[ĝ(x_j,T) - g(x_j,T)]的和。关键在于,这个误差可以被近似为一个双重求和的形式:ĝ_T+1|T - z_T+1|T ≈ (1/(N*T)) * Σ_i Σ_t Σ_j w_j * e_i,t * m*_j(x_i,t-1) + o_P(T^{-1/2})其中,e_i,t是模型在样本内的残差,而m*_j(·)是一个称为Riesz表示子的关键函数。
注意:这里的
o_P(T^{-1/2})是一个渐近意义上的小量,表示当样本时间长度T很大时,这个余项相对于T^{-1/2}可以忽略不计。这是大样本理论的标准表述。
2.2 Riesz表示子与模型无关性
m*_j函数是整个理论的枢纽。它不依赖于我们使用的是DNN还是傅里叶级数,而只依赖于两件事:
- 数据的内在结构(即所有解释变量
{x_i,t-1}的分布和样本外点x_j,T的具体取值)。 - 我们所选择的函数空间
A_NT(即DNN和傅里叶级数所张成的空间减去其对于真实函数g的最佳逼近g_NT,G)。
通过Riesz表示定理,我们将一个在函数空间A_NT上求值(h(x_j,T))的线性泛函,转化为一个内积运算<h, m*_j>。这意味着,无论h是DNN的误差函数还是傅里叶级数的误差函数,只要它们在同一个空间A_NT里,它们与m*_j的内积就决定了其在x_j,T点的值。这正是渐近等价性的根源:不同模型的预测误差,在渐近意义上,都被投影到了同一个由数据决定的线性空间A_NT上,并用相同的“尺子”m*_j来衡量。
2.3 关键假设与正则条件
理论的成立需要一些技术性假设,这些假设确保了机器学习模型不会“学歪”或者过于复杂。
- 假设1(数据生成过程):假设在给定解释变量
X的条件下,模型误差项(v_t, u_i,t)是跨时间独立的,且是亚高斯的(一种比高斯分布更广泛的尾部分布约束)。同时,解释变量x_i,t-1在不同资产i之间是独立的。这保证了数据的“良好行为”,是许多计量分析的基础。 - 假设2 & 3(模型空间复杂度):分别针对DNN空间
G_DNN和傅里叶级数空间G_B。核心是控制模型的复杂度。- 覆盖数(Covering Number):
N(δ, G, ||.||_∞) ≤ (C*T / δ)^{p(G)}。这衡量了用半径为δ的“小球”覆盖整个函数空间G所需的最少数量。p(G)可以理解为函数空间的“有效维度”或复杂度。对于DNN,p(G_DNN)与网络的宽度J和深度L的平方成正比(O(J^2 L^2));对于傅里叶级数,p(G_B)则与基函数的个数J成正比。这个假设要求模型空间不能太“庞大”。 - 近似误差(Approximation Error):
φ_G = o(T^{-1})。φ_G度量了函数空间G逼近真实函数g的能力。o(T^{-1})意味着当样本量增大时,最佳逼近误差的衰减速度必须快于1/T。这确保了模型有足够的能力捕捉真实关系。 - 复杂度与样本量的权衡:
p(G) log(NT) = o(T^{1/2})且φ_G * p(G) log(NT) = o(1)。这是最关键的正则条件。它要求模型的复杂度p(G)不能随着样本量T和资产数N增长得太快,必须与近似误差φ_G的衰减取得平衡。如果模型太复杂(p(G)太大),即使拟合样本很好,也会导致过拟合,破坏统计推断的有效性。
- 覆盖数(Covering Number):
这些假设并非空想。已有理论证明,适当设定宽度和深度的ReLU激活前馈神经网络,以及适当选择基函数数量的傅里叶级数,能够满足这些条件,从而成为合格的预测器。
3. 统计推断:标准误计算与Bootstrap
得到了预测误差的线性表示形式,我们就可以对其进行统计推断,核心是计算其方差,即标准误(Standard Error, SE)。
3.1 标准误的解析形式
基于线性表示ĝ_T+1|T - z_T+1|T ≈ Σ_t [ (1/N) * Σ_i ζ*(x_i,t-1) * β‘_i,t-1 * v_t ],其中ζ*(·) = Σ_j w_j m*_j(·),我们可以推导出预测误差的渐近方差。在一定的正则条件下(如定理2中要求的J^{5/2} = o(T),这控制了傅里叶级数基函数的增长速率),可以证明:SE(ĝ_T+1)^2 ≈ (1/T^2) * Σ_t [ (1/N^2) * ζ*'_t-1 * β_t-1 * Cov(v_t) * β‘_t-1 * ζ*_t-1 ]其中ζ*_t-1是一个向量,其第i个元素是ζ*(x_i,t-1)。更进一步,可以证明标准化后的预测误差服从渐近正态分布:[SE(ĝ_T+1)]^{-1} * (ĝ_T+1|T - z_T+1|T) →_d N(0, 1)这为我们构���置信区间ĝ_T+1|T ± z_{α/2} * SE(ĝ_T+1)奠定了理论基础,其中z_{α/2}是标准正态分布的分位数。
3.2 实操中的Bootstrap估计
然而,上述解析形式中的ζ*和β通常未知,直接计算SE非常困难。在实践中,我们采用残差Bootstrap方法来估计SE和构建置信区间。这是一种非常强大且适用于复杂模型的统计方法。
Bootstrap步骤详解:
- 训练基础模型:使用原始数据
{(y_i,t, x_i,t-1)},训练你的机器学习模型(DNN或傅里叶级数),得到拟合函数ĝ和残差ê_i,t = y_i,t - ĝ(x_i,t-1)。 - 生成Bootstrap样本:对于
b = 1, ..., B(B通常取1000或更多): a. 从{1, 2, ..., T}中有放回地抽取T个时间索引,得到Bootstrap时间索引集{t*_1, ..., t*_T}。 b. 或者,更常见的是残差重抽样:对每个时间点t,生成一个外部扰动η*_t(通常来自均值为0、方差为1的分布,如Rademacher分布(取±1等概率)或标准正态分布)。构造Bootstrap因变量:y*_i,t = ĝ(x_i,t-1) + ê_i,t * η*_t。这里η*_t的作用是重抽样并放大残差的变异。 - 训练Bootstrap模型:对每个Bootstrap样本
{(y*_i,t, x_i,t-1)},用相同的机器学习算法和超参数重新训练模型,得到Bootstrap预测函数ĝ*_b。 - 计算Bootstrap统计量:对于每个
ĝ*_b,计算其在样本外点x_j,T的预测值,进而得到Bootstrap版本的预测ĝ*_b,T+1|T。然后计算Bootstrap分布:ĝ*_b,T+1|T - ĝ_T+1|T。这个分布模拟了ĝ_T+1|T - z_T+1|T的抽样分布。 - 推断:
- 标准误估计:
SE_boot = sqrt( (1/(B-1)) * Σ_b (ĝ*_b,T+1|T - ĝ_T+1|T)^2 )。 - 置信区间:取Bootstrap分布
ĝ*_b,T+1|T - ĝ_T+1|T的α/2和1-α/2分位数q*_{α/2}和q*_{1-α/2},则(1-α)*100%的置信区间为:[ĝ_T+1|T - q*_{1-α/2}, ĝ_T+1|T - q*_{α/2}]。
- 标准误估计:
实操心得:Bootstrap的核心思想是“以数据模拟数据”。它不依赖于对模型误差分布的具体假设,特别适合像DNN这样难以推导解析分布的场景。关键在于,Bootstrap重抽样必须满足原数据的关键结构(如时间序列可能需要的块Bootstrap,截面独立假设下则可用上述残差Bootstrap)。在金融数据中,如果怀疑存在异方差或自相关,需要考虑更稳健的Bootstrap变种,如Wild Bootstrap。
定理3从理论上证明了这种残差Bootstrap的有效性。它表明,在满足前文提到的正则条件下,Bootstrap分布能够一致地估计预测误差的真实抽样分布,从而为我们提供了渐近有效的推断工具。
4. 应用:稳健投资组合优化
有了预测μ_hat = ĝ_T+1|T和其不确定性度量SE(μ_hat)或置信区间[μ_hat - q_α, μ_hat + q_α],我们就可以将其融入经典的均值-方差优化框架,构建稳健的投资组合。
4.1 从经典均值-方差到稳健优化
经典的Markowitz均值-方差优化问题是:max_ω { ω‘μ - (γ/2) * ω‘Σω }其中ω是资产权重向量,μ是预期收益向量,Σ是收益协方差矩阵,γ是风险厌恶系数。这里μ通常被当作一个确定的已知量。
稳健优化承认μ是不确定的。一个最直观的稳健化方法是最小-最大(Min-Max)方法,也称为基于不确定集(Uncertainty Set)的鲁棒优化。我们将μ的取值约束在一个以点预测μ_hat为中心、半径为q_α(例如,95%置信区间的一半宽度)的集合内,然后求解最坏情况下的最优组合:max_ω { min_{μ: |μ - μ_hat| ≤ q_α} [ ω‘μ - (γ/2) * ω‘Σω ] }这里|·|表示逐元素的绝对值约束(即箱型不确定集)。这个优化问题的含义是:在预期收益可能发生的最坏变动范围内,寻找一个能最大化(最坏情况下)效用的投资组合。
4.2 稳健权重的解析解
幸运的是,对于上述箱型不确定集下的最小-最大问题,存在清晰的解析解。内层的min_μ问题对于每个资产i是独立的:min_{μ_i} ω_i μ_i,约束为|μ_i - μ_hat_i| ≤ q_{α,i}。其解为ω_i * (μ_hat_i - sign(ω_i) * q_{α,i})。因此,整个问题等价于:max_ω { ω‘μ_hat - (γ/2) * ω‘Σω - Σ_i |ω_i| * q_{α,i} }与经典问题相比,目标函数中多了一项- Σ_i |ω_i| * q_{α,i}。这一项被称为L1惩罚项或稀疏诱导项。它的作用是:对权重ω_i的绝对值进行惩罚,惩罚系数正是该资产预测的不确定性q_{α,i}。
直观理解:如果某个资产的预测非常不确定(q_{α,i}很大),那么持有该资产(无论多头还是空头)的“模型风险”就很高。稳健优化器会倾向于减少该资产的持仓绝对值,甚至将其权重压缩至零,以规避这种模型误判带来的风险。这实现了基于不确定性的选择性稀疏。
4.3 单资产与两资产特例
单资产情况(N=1):问题简化为
min_ω { (γσ^2/2) (ω - ω_MV)^2 + q_α |ω| },其中ω_MV = μ_hat / (γσ^2)是经典均值-方差权重。这个问题的解是著名的软阈值(Soft-Thresholding)算子:ω_robust = sign(ω_MV) * max( |ω_MV| - q_α/(γσ^2), 0 )这是一个非常直观的结果:将经典权重ω_MV向零收缩,收缩量正比于预测不确定性q_α。当|ω_MV|小于阈值q_α/(γσ^2)时,权重直接被置为零。两资产情况(N=2):假设权重和为1(
ω_1 + ω_2 = 1),问题变得略微复杂但仍有分段解析解。解的形式取决于经典权重ω_1^MV与由q_{α,1}和q_{α,2}构成的阈值之间的比较。解空间被划分为几个区域:- 当
ω_1^MV非常负(极度看空资产1)时,稳健权重ω_1^*等于ω_1^MV加上一个正的调整项c0*(q_{α,1}+q_{α,2}),即向零方向回调。 - 当
ω_1^MV处于中间某个区间时,稳健解可能直接将某一资产的权重设为零(ω_1^*=0或ω_2^*=0),即完全排除预测不确定性过高的资产。 - 当
ω_1^MV和ω_2^MV都足够大且为正时,稳健权重ω_1^*等于ω_1^MV减去一个调整项c0*(q_{α,1}-q_{α,2})。如果资产1的预测比资产2更不确定(q_{α,1} > q_{α,2),则对资产1的减持力度更大。
- 当
注意事项:这种基于L1惩罚的稳健优化,其本质是在均值-方差框架中引入了对权重绝对值的约束。在计算时,可以将其转化为一个二次规划问题,并使用标准的凸优化求解器(如CVXPY,
quadprog等)高效求解。对于多资产情况,虽然没有像单资产那样简洁的全局表达式,但求解在计算上是可行的。
5. 深入探讨:贝叶斯视角与模型风险整合
前述的Min-Max方法是一种频率学派的稳健优化思路。我们还可以从贝叶斯的角度来理解并整合模型风险。
5.1 预测分布与贝叶斯收缩
在贝叶斯框架下,我们将未知的真实预期收益z_T+1|T和我们的点预测μ_hat都视为随机变量。假设给定真实值z_T+1|T后,预测μ_hat的条件分布是正态的:μ_hat | z_T+1|T ~ N(z_T+1|T, SE^2 I)。同时,我们对z_T+1|T有一个先验信念,例如z_T+1|T ~ N(π, V),其中π是先验均值(如历史平均收益、行业基准),V是先验不确定性。
根据贝叶斯定理,我们可以得到真实值z_T+1|T在观察到预测μ_hat后的后验分布:z_T+1|T | μ_hat ~ N(μ_tilde, Σ_tilde)。其中后验均值μ_tilde是先验均值π和样本预测μ_hat的加权平均:μ_tilde = W * π + (I - W) * μ_hat这里W = SE^2 * (SE^2 I + V)^{-1}是一个收缩矩阵。当预测的标准误SE很大(模型不确定性高)时,W趋近于单位阵I,后验均值更倾向于相信先验π;当SE很小时,W趋近于零矩阵,后验均值更相信数据给出的预测μ_hat。这实现了基于不确定性的贝叶斯收缩。
5.2 稳健夏普比率与最优权重
在后验分布N(μ_tilde, Σ_tilde)的视角下,我们可以重新定义投资组合的优化问题。一种自然的方式是考虑后验期望效用,或者等价地,最大化后验分布下的夏普比率。经过推导(如附录A.7所示),在一定的简化假设下(例如V = c * Σ_T,即先验协方差与样本协方差成比例),得到的稳健夏普比率最优权重ω_RS具有如下形式:ω_RS = [γ/(τ+γ)] * g(W) * ω_MV + [τ/(τ+γ)] * (与先验相关的项)其中τ是一个调节参数,g(W)是一个与收缩矩阵W相关的函数,ω_MV是经典的均值-方差权重。
核心洞察:
- 加权平均:
ω_RS是经典数据驱动的权重ω_MV和先验驱动的权重的一个凸组合。参数γ(风险厌恶)和τ(对先验的信心)共同决定了组合的比例。 - 不确定性依赖:收缩矩阵
W依赖于预测标准误SE。SE越大,W越大,g(W)函数的作用会使ω_RS更向先验方向调整,并对ω_MV进行更强的收缩。这与Min-Max方法中L1惩罚的效果在精神上是一致的:更高的模型不确定性导致更保守的仓位。 - 单调性条件:
ω_RS关于SE的单调性(即不确定性增加是否一定导致权重减小)取决于一个条件:ω_MV是否小于某个由先验决定的阈值。这提供了一个判断标准:只有当数据驱动的信号(ω_MV)本身不够强时,增加模型不确定性才会明确地降低其配置权重。
5.3 两种方法的比较与实操选择
- Min-Max (L1惩罚) 方法:
- 优点:概念直观,具有清晰的稀疏性解释(将不确定性高的资产权重设为零),计算上可以转化为可高效求解的凸优化问题。
- 缺点:箱型不确定集可能过于保守,且对称的
±q_α区间可能无法捕捉预测误差分布的不对称性。
- 贝叶斯收缩方法:
- 优点:提供了一个将先验信息与数据预测相结合的自然框架,收缩程度连续依赖于不确定性大小,理论框架优美。
- 缺点:需要指定先验分布
π和V,这对投资者来说是一个额外的负担。结果对先验的选择可能敏感。
实操建议:对于大多数应用,从Min-Max方法入手更为直接。首先,它不依赖于先验设定。其次,其产生的稀疏解(某些资产权重为零)在投资组合管理中通常具有实际吸引力,因为它降低了换手率和交易成本。可以先使用Bootstrap估计出每个资产预测的q_α(例如,95%置信区间的半宽),然后将其代入带L1惩罚的均值-方差优化器中求解。贝叶斯方法则更适合那些对市场有明确、量化先验观点的机构投资者,可以作为高级进阶工具。
6. 实现要点与常见陷阱
将理论应用于实践,有几个关键环节需要仔细处理,否则很容易得到错误甚至误导性的结果。
6.1 机器学习模型训练与正则化
避免过拟合是生命线:渐近等价性和Bootstrap有效性的所有理论假设都建立在模型“不过度拟合”的基础上。对于DNN,这意味着必须使用强力的正则化技术:
- 早停法(Early Stopping):在验证集性能不再提升时停止训练,这是防止DNN过拟合最有效的手段之一。
- Dropout:在训练过程中随机丢弃部分神经元,强制网络学习更鲁棒的特征。
- 权重衰减(L2正则化):在损失函数中加入权重范数的惩罚项。
- 验证集划分:必须严格区分训练集、验证集(用于调参和早停)和测试集(用于最终评估和样本外预测)。时间序列数据需注意按时间顺序划分。
傅里叶级数的基函数选择:基函数个数
J是关键超参数。J太小,模型欠拟合,无法捕捉复杂模式;J太大,模型过拟合,复杂度p(G)急剧上升,可能违反J^{5/2}=o(T)的渐近条件。应使用交叉验证或信息准则(如BIC)来选择J。
6.2 Bootstrap实施的细节
- 残差的重抽样方式:在金融时间序列中,残差可能存在异方差(波动率聚类)或弱自相关。简单的i.i.d.重抽样可能不合适。应考虑:
- Wild Bootstrap:在重抽样时,对残差
ê_i,t乘以一个外部随机变量η_t(如满足E(η_t)=0, Var(η_t)=1, E(η_t^3)=0的分布)。这能更好地保持原残差的异方差结构。 - 块Bootstrap(Block Bootstrap):如果怀疑残差有自相关,可以将时间序列分成重叠或非重叠的块,然后对块进行重抽样,以保持块内的依赖结构。
- Wild Bootstrap:在重抽样时,对残差
- Bootstrap次数B:
B应足够大以确保估计的稳定性。对于计算95%置信区间,B=1000通常是安全的底线。对于更精确的分位数估计或标准误估计,可能需要B=2000或更多。 - 计算效率:对DNN进行B次重训练计算量巨大。可以考虑:
- 使用较小的Bootstrap次数
B进行初步探索。 - 利用GPU加速和并行计算,同时对多个Bootstrap样本进行训练。
- 考虑使用子采样(Subsampling)或m-out-of-n Bootstrap等计算量更小的变体,但需要注意其理论性质略有不同。
- 使用较小的Bootstrap次数
6.3 协方差矩阵Σ_T的估计
稳健优化问题中的协方差矩阵Σ_T同样需要准确估计。高维情况下(资产数量N与样本量T可比或更大),样本协方差矩阵极不稳定。
- 常用方法:
- 收缩估计量(Ledoit-Wolf):将样本协方差矩阵向一个结构化的目标(如单位矩阵、常数相关系数矩阵)收缩。
- 因子模型:假设收益由少数几个因子驱动,
Σ_T = B * Cov(F) * B‘ + D,其中D是对角矩阵。这能大幅降低待估参数数量。 - 图形LASSO:通过施加稀疏性假设来估计精度矩阵(协方差矩阵的逆)。
- 实操建议:在稳健优化框架中,对
Σ_T的估计误差同样是一种风险来源。可以考虑将Σ_T也放入一个不确定集(如基于特征值扰动),进行双重的稳健优化,但这会大大增加问题的复杂性。一个务实的做法是,对Σ_T使用上述稳健估计方法,并意识到这仍是模型的一个潜在误差源。
6.4 常见问题排查表
| 问题现象 | 可能原因 | 排查与解决思路 |
|---|---|---|
| Bootstrap置信区间过宽 | 1. 机器学习模型过拟合,样本内残差ê_i,t方差被低估。2. 模型存在严重的设定误差,无法捕捉数据真实关系。 3. 数据中噪声(不可预测部分)本身很大。 | 1. 检查训练集和验证集损失曲线,加强正则化(增加Dropout率、L2惩罚、提前早停)。 2. 尝试更灵活或更简单的模型,进行模型诊断。 3. 计算样本外预测的MSE,评估可预测性的理论上限。 |
| 稳健优化权重全部趋近于零或极端稀疏 | 1. 预测不确定性q_α被严重高估(如上一条)。2. 风险厌恶系数 γ设置过大。3. 不确定集形式(箱型)过于保守。 | 1. 重新校准Bootstrap过程,检查模型是否稳定。 2. 调整 γ值,使其与投资者的实际风险承受能力匹配。3. 考虑使用椭圆型不确定集 (μ-μ_hat)‘ Γ^{-1} (μ-μ_hat) ≤ φ,它允许资产间的不确定性相互抵消,通常比箱型集保守性低。 |
| 计算时间过长 | 1. Bootstrap次数B过多。2. DNN模型过于复杂。 3. 优化问题求解器效率低。 | 1. 尝试用B=500进行初步分析,确认结果稳定性后再增加至B=1000。2. 简化网络结构(减少层数、神经元数),或使用更快的模型(如LightGBM、傅里叶级数)进行对比。 3. 对于带L1惩罚的二次规划,使用专门的高效求解器(如CVXOPT的内点法,或基于坐标下降的定制算法)。 |
| 样本外表现远差于样本内 | 1. 数据窥探(Data Snooping),在模型选择/调参中过度使用了未来信息。 2. 市场状态发生结构性变化。 3. 交易成本未考虑。 | 1. 严格实施向前滚动(Rolling Forward)或扩展窗口(Expanding Window)的交叉验证,确保所有超参数选择和模型评估都在模拟实时交易的环境下进行。 2. 引入机制转换模型或使用更短期的数据进行训练。 3. 在优化目标函数中显式加入交易成本惩罚项`λ * Σ_i |
最后,我想分享一点个人在实际研究中的深刻体会:机器学习为金融预测打开了新世界的大门,但计量经济学的严谨性是我们穿越这扇门时不迷失方向的罗盘。渐近等价性理论的美妙之处在于,它告诉我们,不必沉迷于“哪个模型更优”的无休止争论,而是应该专注于评估“使用任何模型所带来的共同不确定性”。稳健优化则是将这种不确定性认知转化为实际行动的桥梁。这个过程没有一劳永逸的“圣杯”,它需要我们在模型复杂性、统计严谨性和计算可行性之间不断权衡。一个实用的工作流是:从相对简单的模型(如正则化的线性模型、傅里叶级数)和稳健优化开始,建立基准;再逐步引入更复杂的模型(如DNN),并仔细比较其增加的预测精度是否足以抵消其带来的额外模型不确定性和计算成本。记住,在资产管理中,一个可解释、稳健且计算高效的中等性能策略,往往比一个脆弱、黑箱的高性能策略更有长期价值。