什么是多因子模型中的“因子共线性”?散户量化选股如何防范指标重复打分
发布时间:2小时前阅读:17
在量化选股因子的研究中,“因子越多越好”是许多初学者最容易陷入的一个逻辑误区。很多普通投资者在学会调用QMT或PTrade的多因子接口后,恨不得把自己知道的所有技术指标和财务指标一股脑全倒进打分模型里:把5日均线涨幅、10日均线涨幅、20日震荡斜率、以及MACD金叉强度全部作为选股因子。在他们看来,有这么多维度同时帮自己看股票,选出来的品种一定万无一失。然而,金融统计学规律会冷酷地敲醒你:这种做法触犯了多因子模型中最致命的雷区——“因子共线性(Multicollinearity)”。
什么是因子共线性?通俗语境下的“重复投票”
所谓因子共线性,是指在多因子加权打分模型中,选取的两个或多个因子之间,其内在的数理逻辑和变动特征存在高度的“同质性”和“正相关性”。换句大白话来说:它们其实是换汤不换药的同一个指标,在模型里执行了严重的“重复打分”和作弊。
再举个通俗的招聘例子:一家企业招员工,hr制定了一张打分表,里面包含四个考核维度:
* 维度一:看毕业证书(学历)
* 维度二:看学位证书(学历)
* 维度三:看学校在网上的排名(学历)
* 维度四:看英语四六级成绩(专业技能)
明眼人一眼就能看出,前三个维度虽然名字取得不一样,但本质上考核的全部都是“学历”这同一个东西。如果在打分时给这四个维度各分配25%的权重,结果就是“学历”这一个特征在最终总分里强行霸占了75%的绝对支配权,而真正重要的专业技能、沟通能力等其余维度被严重稀释。
在量化选股中也是一模一样:5日涨幅、10日涨幅、均线斜率,在统计学底层完全高度相关,它们共同指向了一个特征——“短期价格动能”。如果你把它们并列放进模型且没有做任何处理,这几个动能因子会联手作弊,拼命给当前正处于题材风口、短期暴涨但估值已经严重泡沫、财务状况极差的危险庄股打出虚假的高分,强行把它们塞进持仓组合,从而让你的量化策略在面临市场风格突然切换时,由于缺乏真正的估值和质量防御,遭遇灭顶之灾。
如何在多因子量化模型中客观消除共线性
要构建一个健康、均衡、各个因子各司其职的科学打分池,普通投资者必须引入机构级别的因子清洗与正交化步骤:
第一步:建立多因子的“相关性矩阵(Correlation Matrix)”分析。在调校因子权重前,利用策略终端拉取过去一段时间全市场股票的各个因子历史数值,计算出它们彼此之间的相关系数(R值)。一旦发现某两个因子之间的相关系数绝对值高于0.6甚至0.7(例如PE与PB、或者各类短周期均线指标),说明它们之间存在强烈的共线性,你必须狠下心来,在模型中“二选一”,只保留其中数据最纯净、生命力最强的那一个,将另一个冗余指标无条件剔除出打分表。
第二步:引入高级的数学“因子正交化(Orthogonalization)”处理。如果有些因子你实在不舍得删(例如你既想看个股的营收增长率,又想看净利润增长率,这两者天然有相关性),在将它们送入最终的打分引擎前,必须在底层调用正交化算法(如施密特正交化、或PCA主成分分析)。这种数学处理的本质,是强行剥离和剔除掉B因子中与A因子重复的、重叠的那些信息影子,只留下B因子最核心、最独立的“纯净残差部分”去参与打分。这样,各个因子的特征才能在同一张表上进行绝对公平、客观的科学加权博弈。
量化交易的核心优势,是用程序代替人工,规避情绪干扰、提升交易效率。保持因子的纯粹和独立,拒绝数据注水,是策略跨入稳定盈利门槛的坚实基石。我司紧紧切入普通投资者在因子投研、高质量数据清洗层面的核心技术痛点,将原本动辄百万资产验资的专业客户端开通门槛,大幅调降至仅需10万资金即可全线上快速解锁国金证券的QMT或PTrade。我们不仅全流程支持全线上高效便捷开户业务办理、提供极具竞争力的超优惠佣金费率,更组建了专属的专业量化社群。社群内技术专家全程指导您进行完整因子库调用、相关性矩阵热力图绘制以及高级正交化代码调校,手把手助您打造出真正科学、强悍的多因子量化星舰。
温馨提示:投资有风险,选择需谨慎。


问一问

+微信
分享该文章
