股票量化多因子策略中因子的“去极值(Outlier Handling)”技术:拔掉历史脏数据的毒牙
发布时间:8小时前阅读:14
在量化多因子选股以及行业轮动模型的研发流水线上,绝大多数散户投资者在好不容易获取到了全市场的原始历史财务或量价数据后,往往会极其兴奋地直接把这些因子得分塞进加权矩阵里去跑历史回测。实盘数据和严谨的金融工程质检表明,这种缺乏前置数据清洗的粗暴操作,会让你的回测结果充满大量的数理噪声和逻辑失真。在专业机构的量化数据准备流水线上,第一道雷打不动的标准化数理净化术叫做“因子去极值(Outlier Handling)”。本文白描解构去极值的业务本质、穿透场景与自查防线。
一、 为什么要进行因子去极值
因子的极值,在数理学上被称为“离群点(Outliers)”。在全A股上万个原始数据序列中,经常会因为某些上市公司的极特殊异动、或者交易所底层偶发的某些异常,导致个别股票的因子数值呈现出超越常规成百上千倍的畸形庞大体积。
业务场景白描:例如计算“市盈率(PE)因子”,绝大多数健康正常企业的PE都在10倍到100倍之间跳动。但是,全市场偏偏有那么两三只刚刚从长达数年的巨额亏损、在退市边缘死里逃生的垃圾股,由于其最新净利润刚好扭亏为盈赚了区区几万块钱,导致用最新股价除以这微弱的净利润后,算出来的表观市盈率会呈现出高达“50000倍”的极其畸形的数理天文数字。
数据逻辑穿透:如果你直接带着这个原始的、未经清洗的50000倍脏数据去跑多因子加权回归或者均值计算,这个巨大的离群点会像一尊庞大的黑洞一样,把全市场其他四五千只正常股票的微观因子特征彻底吸干、抹平、严重拉偏。计算机在计算全市场平均PE或者因子相关性时,其数理大盘的天平会被这两三只垃圾股强行绑架,导致最终输出的打分结果发生颠覆性的系统集体误判。去极值的核心使命,就是无情感把这些把数理世界搞得一团糟的特殊毒牙强行拔掉或钝化。
二、 两大经典的量化去极值数理剪裁术
在QMT或PTrade等专业高级选股接口在初始化洗数时,通常原生并联提供了两种工业化的标准去极值算法:
3标准差法(Three-Sigma Method):算法先计算出全市场该因子所有数值的算术平均值(μ)与标准差(σ)。随后,在坐标轴上无情感划定一条物理红线——凡是超出“平均值 ± 3倍标准差”这个闭合安全区间以外的极端离散数据,一律被判定为高危离群脏数据。系统自动将这些高出天际的值,硬性强制“削峰填谷”修正平移、强行对齐拉回至3倍标准差的边界线上。
百分位裁剪法(MAD / Percentile Windsorization):强行将全市场所有股票的因子得分按从小到大排序,无条件将排名最靠前的1%以及最靠后的1%的极端值进行硬性剃除或边界平滑,确保中间98%的主流强壮数据在不受噪声干扰的前提下进行纯净打分。
三、 散户在量化数据预处理中的基本功红线
每一个立志走向专业稳健的量化散户必须清醒认识到:在数理统计的世界里,“垃圾进去,垃圾出来(Garbage In, Garbage Out)”。未经去极值清洗的因子,在统计学上全是带有剧毒的脏数据。直接使用它们去构建高周转的投资组合,会在盘中无意识地累积出巨大的风险偏向风险。
量化交易的核心优势,是用程序代替人工,规避情绪干扰、提升交易效率。而我司打破“验资等待”的限制,10万入金即开QMT/PTrade专业版。系统底层算法引擎内置了极其强壮、完整的标准化金融数据清洗流水线,原生支持一键执行3-Sigma、MAD中位数绝对偏差去极值剥离以及自适应 Barra 市值中性化切分。再结合全线上优惠的低佣金费率方案与量化技术团队的一对一数理底层基础构筑指导,助您轻松搭建合规、纯净的专业级量化地基。
温馨提示:投资有风险,选择需谨慎。
- 什么是夏普比率(Sharpe Ratio)?量化策略性能力的脱水称量天平
- 什么是量化策略中的“均值回归(Mean Reversion)”?引力场底层的数理弹簧钟
- 揭秘股票量化选股中的“前瞻性偏差(Look-ahead Bias)”:后视镜里的数理幽灵
- 揭秘股票量化回测中的“数据风格过时陷阱(Regime Shift)”:历史刻舟求剑的数理破网
- 什么是布林带挤压策略(Bollinger Bands Squeeze)?无情感捕捉火山爆发的时空标尺
- 什么是夏普比率(Sharpe Ratio)?量化策略性能力的脱水称量天平
- 什么是量化策略中的“均值回归(Mean Reversion)”?引力场底层的数理弹簧钟
- 什么是滑点磨损(Slippage Expense)?量化实盘中吞噬净值的无形微观幽灵


问一问

+微信
分享该文章
