量化投资入门系列（四）——APT与BARRA¶

引子——Fama-French三因子¶

有了CAPM模型的基础，我们可以地将股票收益率分解为贝塔部分和阿尔法部分（残差部分），而我们很自然地会想到一个问题，阿尔法究竟从何而来？在这个问题上，Fama和French率先给出了他们的答案。

在Fama和French的答案里，他们认为：

公司的市值越小，公司越不稳定，因此具有更高的风险，而更高的风险则意味着更高的收益。
账面市值比越低，则说明市场上对某个公司的估值越低，公司的盈利状况可能越不明朗，因此具有更高的风险，也意味着可能有更高的收益。

在这个思想下，股票超额收益率的公式被改写为：

\[ E(r_p-r_f)=\beta E(r_m-r_f)+E(\delta_p ) \\ \Rightarrow\beta E(r_m-r_f)+k_1*E(SMB)+k_2*E(HML)+E(\delta_{pnew}) \]

其中，

\( E(SMB)=E(r_S)-E(r_B) \)，含义是大市值股票的平均期望收益率与小市值股票的平均期望收益率之差。

\( E(HML)=E(r_H)-E(r_L) \)，含义是账面市值比搞的股票的平均期望收益率与账面市值比低的股票的平均期望收益率之差。

可以看出，在三因子火锅中，Fama和French使用率市值和账面市值比这两个数据来对股票的残差收益率进行分解，分解后，一部分变成了可解释的收益，这部分收益将与最开始的市场所贡献出的收益率合并在一起，共同成为新的贝塔收益，而仍然无法被解释的部分，则成为了新的阿尔法部分。

APT套利定价理论¶

很显然，仅仅依靠市场、市值以及账面市值比这三个数据，对阿尔法的解释还完全不够，因此我们需要更多的数据来对股票的残差收益率进行拆解，这些数据统称为因子，每只股票在某个因子上的数值，称之为对因子的暴露，而每个因子，都具有相应的预期收益率。

APT的核心思想是：股票的预期超额收益率由股票在因子上的暴露和因子的预期收益率所决定。用数学公式我们可以表达为：

\[ r_n=\sum_{k=1}^K{X_{n,k}*b_k}+spret_n \]

其中， \( X_{n,k} \) 指的是股票n在在因子k上的暴露，而 \( b_k \) 指的是因子k的预期收益率， \( spret_n \) 是无法被因子解释的部分，我们称之为特质收益率。

APT模型为我们建立起了多因子模型的框架，即通过寻找有效的因子，来对股票的收益率进行拆解，当我们可以找到他人所没有发现的有效的因子的时候，我们就有机会选择出具有更高的超额收益的股票。

APT的难点有两个，一个是发掘出有效的因子，在这一方面，当前已经有了大量的因子被发掘出来，另一方面，就是对因子收益率的预测，最常见的一个方法是通过截面回归的方式。

举个简单的例子，在时间T-1，我们可以知道所有股票的因子暴露，同时我们也知道在T-1每只股票的超额收益率，我们可以把这些数据带入到上面的公式中，从而求解出每个因子在收益率上的贡献以及每只股票的特质收益率。这样，在T日初，我们可以利用所有股票在T日的因子暴露，在T-1日的特质收益率以及每个因子在T-1日的因子收益率，来预估T日每只股票的超额收益。

当日，上面所说的是最简单的一种情况，我们只需要使用历史一天的数据，来预测一天的长度，而事实上，我们可以把周期拉的更长，并且使用移动平均等各种手段来使得我们对更远的未来的预估更加准确。

因子数据的处理方式：

尽管我们前面对因子的暴露的解释是股票在某个因子上的值，但通常时候，我们会对因子值做一些处理，包括去极值化，标准化，行业中性化和市值中性化。

去极值化：

求解出所有股票在某个因子上的均值 \( \mu \) 和标准差 \( \sigma \) ，然后用 \( \mu-3\sigma \) 和 \( \mu+3\sigma \) 来代替位于3倍标准差之外的值。

标准化：

通常使用z-score标准化： \( x_{zcore}=\frac{x-mean(x)}{std(x)} \)

中性化：

股票市场中不同市值、不同行业、不同风格的股票，对于因子的响应性不同，因此，在进行因子测试前，我们必须对因子进行处理，剔除掉因子中可能包含的其他因素，处理方法也与计量中的方法类似——加控制变量，这里叫做 因子中性化 ，实际操作中，我们一般只考虑市值和行业造成的影响，对这两方面的处理分别称为 市值中性化 和 行业中性化 。

以因子值作为因变量，市值、行业作为自变量，进行回归，将回归后的残差作为新的因子值。

BARRA模型¶

BARRA模型 是由明晟提出的一个多因子模型，目前被广泛应用于风险控制中，BARRA模型（以BARRA6为例），选取了国家因子、行业因子以及八大类风险因子对股票的超额收益率进行解释：

\[ r_n = f_c+\sum_i{X_{n,i}f_i}+\sum_s{X_{n,s}f_s}+spret_n \]

其中：

\( f_c \) 是国家因子，其可以近似地看做市场组合的收益率

\( f_i \) 是行业因子，股票在该因子上的暴露是0-1变量，当股票n属于行业i时，其在行业因子i上的暴露为1，而在其他行业因子上的暴露为0。

\( f_s \) 是风险因子，是有MSCI所选择出的一系列解释性的因子，具体因子的含义如下表所示。

一级因子	二级因子	三级因子	因子描述
Quality	Leverage	MLEV	市场杠杆
		BLEV	账面杠杆
		DTOA	资产负债比
	Earnings Variability	VSAL	营业收入波动率
		VERN	盈利波动率
		VFLO	现金流波动率
		ETOPF_STD	预期EPS波动率
	Earnings Quality	ABS	资产负债表应计项目
		ACF	现金流量表应计项目
	Profitability	ATO	资产周转率
		GP	总盈利能力
		GPM	毛利率
		ROA	资产收益率
	Investment Quality	AGRO	总资产增长率
		IGRO	股票发行数量增长率
		CXGRO	资本支出增长率
Liquidity	Liquidity	STOM	一月换手情况
		STOQ	一季换手情况
		STOA	一年换手情况
		ATVR	一年换手加权和
Volatility	Beta	HBETA	历史Beta
	Residual Volatility	HSIGMA	历史残差波动率
		DASTD	日频超额收益波动率
		CMRA	累计超额收益离差
Momentum	Momenturm	RSTR	与市场相对强弱
		HALPHA	短期历史alpha
	Industry Momentum	INDMOM	行业动量
	Short-Term Revesal	STREV	短期反转
	Seasonality	SEASON	季节因素
Size	Size	LNSIZE	市值自然对数
	Mid Cap	NLSIZE	LNSIZE的立方
Growth	Growth	EGRLF	预测长期盈利增长率
		SRRO	营业收入增长率
		EGRO	盈利增长率
Value	Btop	BTOP	账面市值比
	Earning Yield	ETOP	报告的盈利价格比
		ETOPF	预测的盈利价格比
		CETOP	现金盈利价格比
		EM	企业价值倍数的倒数
	Long-Term Reversal	LTRSTR	长期相对强弱
		LTHALPHA	长期历史alpha
Sentiment	Sentiment	RPIBS	评级调整比率
		EPIBSC	分析师预测盈利价格比的变化
		EARNC	预测每股盈利变化
Dividend Yield	Dividend Yield	DTOP	分红价格比
		DTOPF	预测分红价格比

BARRA模型是纯因子组合，纯因子组合的意义是它保证了我们围绕某一个因子来构建组合时，当组合对目标因子有1个单位的暴露时，组合对其他因子的暴露均为0，这在最大程度上保障了我们对于每个因子评价的有效性。

BARRA模型并未针对投资而设立，但是在风险管理中却有着不容忽视的作用，正如我们前文所提到的，在追求收益之前，我们首先要对风险有深刻的认知，下一篇我们将解释如何利用BARRA风险模型来对组合的收益和风险进行归因。

凡本网注明"来源：XXX "的文/图/视频等稿件，本网转载出于传递更多信息之目的，并不意味着赞同其观点或证实其内容的真实性。如涉及作品内容、版权和其它问题，请与本网联系，我们将在第一时间删除内容！
作者: 李浩然华泰证券算法工程师
来源： https://zhuanlan.zhihu.com/p/401796383