辨析特征与因子
|
在机器学习领域,特征指“被观测对象的可测量性能或特性”,“特征工程处理”是指在给定数据、模型和任务的情况下设计出最合适特征的过程,相当于梳理数据并结合业务需要提取有意义的信息,以干净整齐的形态进行组织。
因子指“对个股收益差异有解释作用的特征”,其中Alpha因子更为强调其对未来个股相对收益的预测能力。“特征”更侧重符合数理统计规律的信息,“因子”相对更侧重逻辑性和可解释性。
中低频数据通常能直接提取Alpha因子,不少低频指标本身就具有选股能力;而原始的高频行情数据一般不能直接用作Alpha因子,需要通过信号变换、时间序列分析、机器学习等方法从高频数据中构建特征,才能构建选股因子。
做好特征提取能节省大量后续环节的工作:以D. E. Shaw为代表的部分海外顶级机构,并未特别强调深度学习模型的复杂性,但由于Alpha因子质量较高,即使并不复杂的模型也能获得出色的建模效果。业内并不会片面强调因子数量,因子的质量(即存在多少独立的Alpha)才是关键。不同的方法论会得到不同的成果,从逻辑出发的因子质量比较高,暴力方式得到的因子数量比较多。
近年来,A股市场更为有效、机构化趋势明显,量化私募从市场获取超额收益的难度增加,因子开发也面临着数据维度更高、信息密度更低、噪声含量更高的挑战。机器学习等擅长处理海量数据和高维特征的方法得以快速应用到量化投研流程中。其中深度学习模型具有灵活多样的网络结构,适合不同情景的建模问题,本身具有自动学习特征的能力。随着网络层数增加,模型的线性和非线性表达能力也会在一定范围内明显增强。
随着人工神经网络的进一步发展,除了选择分析已经提取好特征的信号,还可以直接分析原始数据而不需要提取特征。该做法能避免人为选择导致的信息丢失,保留全部信息,最终有助于获得相关性极低的α。