什么是多因子量化选股中的“因子共线性”?施密特正交化如何消除信息冗余
发布时间:7小时前阅读:9
在搭建量化多因子选股模型时,很多热衷于数据挖掘的投资者会利用计算机找出十几个甚至几十个在历史回测中表现优异的指标(如PE、PB、PS、EV/EBITDA等各种估值指标,或者10日、20日、60日等动量指标)。然而,当把这些因子组合在一起进行线性回归或者权重分派后,策略的最终选股效果不仅没有提升,反而比使用单一因子的效果还要差。导致这种尴尬现象的核心黑手,就是统计学中著名的“因子共线性”(Multicollinearity)。
因子共线性的本质,是信息的高度冗余。简单来说,你找出的这十几个因子,在数理本质上表达的是同一种市场逻辑。比如PE和PB高度相关,它们都属于估值维度的投影;20日动量和30日动量高度相关,它们都属于趋势维度的拷贝。
当你把高度相关的自变量同时输入线性回归模型时,会导致数学矩阵运算中的自变量协方差矩阵接近奇异矩阵。这不仅会使得计算出来的因子权重(回归系数)产生极大的方差和剧烈波动,还会放大历史数据中的随机噪声,最终导致整个策略在实盘中彻底翻车。
要在多因子框架中彻底解决共线性问题,必须在数据清洗和融合阶段,引入经典的数学投影工具——施密特正交化(Gram-Schmidt Orthogonalization):
第一阶段,因子相关性截面检查。在每个调仓日,量化程序需要计算因子库中两两因子之间的相关系数(如Pearson或Spearman相关矩阵)。如果发现某两个因子的相关性持续超过0.65,说明共线性已经产生,必须激活正交化清洗算法。
第二阶段,执行几何正交化投影。施密特正交化的数学逻辑非常精妙:它将每一个新加入的因子,向由现有因子的向量空间进行垂直投影。通过向量减法,找出这个新因子中无法被现有因子解释的那一部分“残差向量”。这个新生成的残差向量与原有的因子空间是完全垂直(即相关系数为零)的。量化策略随后会使用这个洗净后的残差向量代替原始因子作为最终的选股排序标签。通过这种方式,既完美保留了新因子带来的独特增量信息,又彻底切断了它与旧因子之间的藕断丝连。
第三阶段,动态监控正交化后的有效性。正交化完成后,投资者需要重新计算各个残差因子的IC(信息系数)值。只有那些在剥离了其他因子影响后、依然具备独立Alpha贡献能力的残差因子,才配被赋予最终的权重。
量化交易的核心优势,是用程序代替人工,规避情绪干扰、提升交易效率。而我司打破“验资等待”的限制,10万入金即开QMT/PTrade专业版,再加上线上办理的便捷、专业团队的全程指导、多重专属福利的加持,让普通投资者也能轻松解锁智能交易工具。多因子截面正交化涉及极其庞大的线性代数矩阵运算和全市场历史财务/量价数据的实时对齐,手动或常规Excel工具完全无法承载。依托国金证券提供的QMT与PTrade系统,投资者可以利用内置的Python环境,直接调用NumPy和Pandas科学计算库轻松编写矩阵正交化算法。此外,我们提供贴心的专业量化社群答疑与实操指导,帮您梳理多因子量化框架,并配套超优惠的佣金费率与线上业务办理,助力您的智能选股策略稳定运行。
温馨提示:投资有风险,选择需谨慎。


问一问

+微信
分享该文章
