电影投资

当前位置:首页 > 投资理财 > 机器学习能用于基金组合构建吗?

机器学习能用于基金组合构建吗?

  • 发布时间:2021-04-08
  • 编辑:电影投资
  • 阅读量:4832
  • 收藏文章
  • 影视投资从最初的业内人士之间进行逐步步入大众视角,成为近年来一种新的投资渠道。
  • 24小时服务热线:400-805-4342
  • 原标题:机器学习能用于基金组合构建吗?

    摘要

    文献来源:Demiguel V, Gil-Bazo J, Nogales F J, et al. Can Machine Learning Help to Select Portfolios of Mutual Funds?[J]. Social Science Electronic Publishing, 2021.

    推荐原因:众所周知,事先确定未来表现优异的共同基金是一项困难的任务。本文基于大量投资者容易获得的基金特征数据,利用机器学习方法训练提升其预测能力。研究发现,利用1980年至2018年期间美国股票型基金的数据,基于机器学习方法构建的基金组合,经风险调整后的年回报率样本外高达4.2%。主要原因是该方法可以利用多种信息,并允许预测因子与基金业绩间的非线性关系。此外,可以发现随着时间的推移所有投资者组合的业绩都会下降,这可能与资本市场的竞争加剧及行业层面的规模不经济有关。

    机器学习能用于基金组合构建吗?-千筹网

    1.导言

    共同基金的研究一直表明,主动基金在扣除交易成本、管理费用及其他支出后整体上将获得负的经风险调整的回报(alpha)。然而,近年来的一些结果表明了不同基金特征信息有预测未来基金业绩的能力。如果投资者成功地利用业绩的可预测性,那么基金业仍然有主动管理的空间。在本文中,我们探讨了投资者是否可以用机器学习(ML)结合公开的数据来构建能提供正向收益的共同基金投资组合。

    我们的结果可以总结如下:首先,我们考虑的三个算法中的两个即梯度提升(GB)和随机森林(RF)能够选择出在风险调整的基础上,提供正向表现且在统计上显著的基金组合。这样的结论在多种稳健性检验下保持不变。第二,我们集中关注使用GB选择的投资组合,并证明它的性能不是由单一特征驱动的。多变量预测的方式要比试图使用单个基金特征的方式更优。第三,我们表明随着新数据的出现,不同变量的相对重要程度表现出较大变化。这种重要度的变化突出了动态方法的必要性,也就是基金特征和业绩的可预测性关系在每次组合构建时重新评估。最后,所有投资组合的alpha在样本期内都会下降,包括GB选定的投资组合。这一结果表明表现最好的机器学习算法可以从共同基金市场中提取alpha,但前提是首先要存在可以提取的alpha。

    我们的结果对投资者、财务顾问、基金经理以及养老金计划管理者具有重要的现实意义。我们提出的方法易于实施并且可以用于改进基金选择。

    2.数据和预处理

    2.1.数据描述

    我们从CRSP Survivor-Bias-Free US Mutual Fund数据库收集了美国共同基金的月度数据,数据收集于共同基金份额类别层面并且覆盖1980-2018年。根据共同基金的文献,我们使用了以下的筛选:首先,我们仅仅包括了主动基金的份额类别,因此去除了ETF和被动型共同基金。第二,我们选择的是股票投资比例在70%以上的基金份额类别。第三,我们去除了总净资产(TNA)少于500万美元,年限少于36个月的份额类别,从而避免幸存偏差。最终的样本包括总共6216只不同的份额类别,其中5561只综合型股票基金(占样本总TNA的94%)和665只行业主题基金。

    我们采集的数据集包括份额类别层面的月度收益信息(扣除费用和交易成本的净值),TNA,费用比例,和换手率。进一步计算了:年限(份额类别成立之日的月度数),月流动量(经净收益调整的份额类别TNA的相对增长),流动量的波动率(12个月的流动量标准差)以及经理任期(年数)。进一步我们利用收益的历史数据来获得特征,即Fama-French五因子模型和动量结合估计的时间序列,使用36个月的滚动窗口将该份额类别的超额收益对过去36个月的五因子及动量进行回归。随后计算了精度调整的alpha(模型的截距项按照其标准误进行放缩)以及精度调整的beta。我们使用t统计量而不是原始的alpha和beta作为预测指标来来解释这些数量估计的不确定性。我们还使用了FF5+动量滚动窗口回归中的R方作为基金业绩的预测指标。对每个基金份额类别i及月份m,我们定义月度已实现alpha, 如下所示。其中 是在m月份额类别超过无风险利率的收益, 是一个包含了m月已实现市场、规模、价值、盈利能力、投资、以及动量因子的向量。 是利用过去36个月数据进行滚动窗口回归估计得到的因子载荷向量。

    最终,我们使用了已实现的alpha来计算每个份额类别和月份的资产增加值,反映了基金经理从资产市场中提取的美元价值,定义为

    图1报告了我们样本中每个特征的均值、中位数、标准差和类别-月度观测值的数量。

    机器学习能用于基金组合构建吗?(1)-千筹网

    2.2.预处理

    我们对应用于机器学习算法的数据进行了如下的预处理。首先,我们将我们的样本从月度转化为年度数据。我们的目标变量是这些基金年度的已实现alpha,这可由每个日历年中的月度已实现alpha进行加总得到。计算了流动量和资产增加值的年度值为每年1月到12月月度数据的平均值。流动量波动率已经为按照年度频率定义。对于所有其他变量,我们使用在每年12月的值。第二,对每个特征进行标准化从而使他们在横截面上均值为0,标准差为1。标准化经常在涉及机器学习方法的实证问题中使用,并且对于保持机器学习估计过程中的放缩不变性非常重要。我们还将缺失的特征值设置为标准化后的当月非缺失值的均值,即0。第三,我们建立了由目标变量和预处理特征构建的最终数据集,这些特征是机器学习算法训练的预测因子。如上所述,目标变量是基金在日历年的已实现alpha。作为预测因子的特征包含以下滞后一年的标准化变量:年度已实现alpha、alpha(36个月个滚动窗口回归截距的t统计量)、TNA、费用比率、年限、流动量、流动量的波动率、经理任期、资产增加值、R方以及市场、盈利能力、投资、规模、价值和动量因子beta的t统计量(从滚动窗口的回归中得到)。图2展示了分析中使用的变量之间的相关性矩阵。目标变量和滞后预测因子的相关性较低。然而一些预测因子表现出显著的正相关和负相关,其中滞后流动量和流动量波动率之间关联最高(59%)。

    机器学习能用于基金组合构建吗?(2)-千筹网

    最终我们将我们的数据组织为面板结构,基金份额类别被标记为 ,年份被标记为t=1,…,T。

    3.方法

    作为基准的预测方法,我们考虑普通最小二乘法(OLS)方法:

    机器学习能用于基金组合构建吗?(3)-千筹网

    其中 ,其中 是参数向量,而 表示2-范数。OLS方法提供了一个无偏估计量和一个方便的解释。但是,OLS的表现常常在数据存在高方差、非线性和交互作用时表现比较差。在这种情况下,机器学习方法往往以牺牲可解释性为代价而获得比OLS方法更好的表现。

    我们选择了三大类机器学习方法:弹性网、随机森林和梯度提升。弹性网方法考虑了和OLS相同的线性近似,但是在预测因子相关时提供了改进后的参数估计(通过正则化)。此外,为了拓展线性近似并捕捉非线性和预测因子间潜在的相互作用,我们考虑决策树的集合(随机森林和梯度提升),因为这些方法在结构化数据的一般应用中的预测性能通常优于线性方法。

    3.1.弹性网

    对于具有大量预测变量的高维模型,收缩或正则化方法通常能提供更好的参数估计。Zou and Hastie (2005)提出的弹性网方法使用1-范数和2-范数正则化项来缩小估计参数的大小。这种方法的一个优点是不需要实现选择相关的特征因为过度拟合会被正则化项削减。具有两个正则化项的弹性网一般框架如下:

    机器学习能用于基金组合构建吗?(4)-千筹网

    其中 ,其中 是参数向量。1-范数项控制估计参数的稀疏度,2-范数项稳定正则化路径。我们实现了具有两个惩罚项(ρ和λ)的弹性网框架。

    3.2.随机森林

    随机森林基于决策树的bootstrap聚集。决策树具有高度的可解释性,通过在每个节点上分割样本来自动选择预测变量。然而由于预测的高方差,他们的预测性能可能很差。随机森林通过对多个决策树进行平均来减少对决策树的预测方差。预测方差的降低和树之间的独立程度(相关性)有关,因此,各树之间的相关性应尽可能地小。为了实现这一点,随机森林使用bootstrap为每棵树随机选择观测值,并在树的每个节点上随机选择预测因子(特征)的子集。bagging(bootstrap聚集)按照以下方式进行。 表示为样本 获得的已实现alpha的预测。然后,进行B次bootstrap重复的bagging预测 是:

    机器学习能用于基金组合构建吗?(5)-千筹网

    其中 表示第b个决策树的预测。在为每个bootstrap样本绘制一个决策树之后,通过在每个节点上随机选择m个基金特征并选择最佳的特征进行切分来生长决策树。在随机森林的实现中,我们设置B=1000。以往的实证研究表明随机森林具有良好的预测性能,尤其是当问题的维数较高,变量之间的关系为非线性且包含相互作用时。

    3.3.梯度提升

    机器学习能用于基金组合构建吗?(6)-千筹网

    其中 表示预测函数,h是由梯度残差计算得到的弱决策树,δ是学习率(超参数), 。与随机森林不同,梯度提升往往会过拟合数据。为了避免过拟合,更多的元素和超参数需要被加入,例如:树的约束(树的个数、树的深度、节点的数量等等),学习率的收缩,数据的随机不放回子采样,对终端节点的值的惩罚等等。

    3.4.通过样本分割优化超参数

    为了优化弹性网、随机森林、梯度提升方法的超参数,我们使用了k=5的k折交叉验证。在k-折交叉验证中,训练样本是随机被分为了k组,其中k-1折被用来获得预测,而剩下的一个是用于衡量预测的验证集(交叉验证误差)。

    4.实证方法与主要结果

    尽管分析是在共同基金的份额类别层面进行的,但在本节中我们将基金份额类别称为基金。我们使用前10年的一年已实现alpha(1981-1990)与滞后一年的基金特征(1980-1989)数据来训练每个机器学习算法从而预测业绩。我们随后使用了在1990年12月基金特征的值,这些数据是没有用于训练过程的,要求之前训练的算法预测下一年(1991年)的业绩。我们形成了一个等权的投资组合,包含了预测基金业绩分布的top10%,然后跟踪这个组合在1991年12个月内的收益。如果,在此期间,一个属于这个组合的基金从样本中消失了,我们则假设投资于该基金的金额在剩余的基金中平均分配。对于每个连续的年份,我们将样本向前扩展一年,在扩展的样本上再次进行模型的训练,对之后的一年进行新的预测。通过这样的方式,我们构建了从1991年1月到2018年12月(346个月)top10%组合月度样本外收益的时间序列。

    最后,我们评估了top10%组合。具体而言,我们使用346个样本外的投资组合月收益率和同期风险因子进行单一时间序列回归。投资组合的alpha是时间序列回归估计的截距。我们使用了不同的模型来衡量组合业绩:Fama和French(1993)三因子模型加上动量(FF3+MOM),Fama和French(2015)五因子模型(FF5),FF5模型加上动量(FF5+MOM),以及FF5模型加上动量和总流动性因子(FF5+MOM+LIQ)。但注意,在所有情况下基金选择都是基于FF5+MOM模型的预测业绩。

    图3报告了通过梯度提升(GB)、随机森林(RF)和弹性网(EN)三种机器学习方法及普通最小二乘法(OLS)选择的共同基金top10%投资组合的估计alpha。为了进行比较,我们还计算了两个用被动策略构建的组合:包含了所有可用类别的等权重组合(EW),和一个对所有类别进行资产加权的组合(AW),同样是年度再平衡。

    机器学习能用于基金组合构建吗?(7)-千筹网

    图3中有两个重要的发现。首先,所有基于预测的算法,包括OLS,都允许投资者用正alpha构建组合。第二,GB和RF都选出了具有正向且在统计和经济意义上都显著的alpha的基金组合。这些结果表明我们方法的结果对于业绩归因模型是相当稳健的。由RF算法选出来的组合的alpha值低于由GB选出来的组合,但是仍然正向且统计上的显著性。相反无论是用EN还是OLS选出的组合都没有达到统计上显著的alpha。虽然GB和RF所选组合的alpha都显著不等于0,但他们是否显著地区别于OLS所选的组合并不清楚。为了解决这一问题,我们构建了一个多空组合,即在GB投资组合中的基金做多,在OLS投资组合中的基金做空,并对该策略进行评估。图4所示的结果表明,GB选择的top10%组合与OLS选出的top10%组合之间的业绩差异为正且显著,在RF选择的组合上也有相似的结论。相反,EN选择的组合的业绩在统计上没有显著地区别于OLS选择的组合。最后,EW和AW基金组合都比OLS选择的组合表现显著更差。

    然而,投资者可能会选择只投资主动基金,因此为了研究top10%组合在平均收益和风险方面的表现,图5报告了每个基金组合的如下衡量指标:平均超额收益、收益的标准差、Sharpe比率、Sortino比率、最大回撤以及根据历史模拟法计算的99%置信水平的VaR。在alpha上表现最好的两种方法也获得了最高的Sharpe比率。我们的结果不会随着考虑下行风险而改变:GB和RF选出了具有最高Sortino比率的基金组合。就最大回撤而言,由EN和OLS选出的组合似乎风险最高。最后,EW和AW组合在VaR方面是最安全的。

    机器学习能用于基金组合构建吗?(8)-千筹网

    综上所述,本节的结果表明,投资者可以根据可观察的基金特征来获取相对等权重或资产加权的组合更好的业绩。然而EN和OLS都不能让投资者事现选出正向alpha的基金。只有考虑了基金特征和未来业绩之间非线性和交互作用的方法,即GB和RF,才能找出具有较大且显著正向alpha的基金,由此产生的投资组合在所有的组合中具有最高的Sharpe比率和Sortino比率。

    5.稳健性检验

    我们研究了我们的结果是否在以下情况中稳健:(1)考虑其他界限来选择基金;(2)选择其他模型来衡量经风险调整的业绩;(3)构建只包含散户共同基金份额类别的投资组合;(4)使用深度学习方法来获得基于预测的组合。

    首先我们计算基于预测的包含top 5%和top20%基金的组合。如图6所示,根据GB,由top5%的基金构建的组合经风险调整的业绩略高于top10%组合。然而标准误也更高一些,因此作为结果t统计量更小。换言之,如果我们只投资于按预期alpha计算的top5%的基金,平均业绩会更高但可靠性会降低。当我们考虑top20的组合时,月度alpha下降的程度达到了10个基点,但是仍然保证在统计上显著。类似的结论也适用于RF。就像之前的top10%组合一样,EN和OLS都不能选择一个alpha为正且显著的组合,不论使用的什么界限。

    第二,我们检验了我们的结果对于使用其他因子模型来衡量业绩是否稳健。具体来说,除了之前考虑的四种不同的模型外,我们还使用了Cremers et al.(2013)、Hou et al.(2015)和Stambaugh and Yuan(2017)的模型估计了基于预测的基金组合的经风险调整的业绩。结果如图7从定性的角度与图3相似。唯一值得注意的区别是,当我们使用Stambaugh和Yuan(2017)的风险因素来评估业绩时,GB和RF选择的top10%组合的业绩的统计显著性会降低。

    机器学习能用于基金组合构建吗?(9)-千筹网

    第三,我们的样本包括机构和散户份额类别。因此,目前不清楚所考虑的机器学习方法是否仅仅选出了机构份额类别,这些类别往往费用更低且受到投资者更多严格的监督。为了回答这个问题,我们从样本中去除了机构份额类别并重复分析。结果如图8所示,表明GB和RF选择的散户基金组合在风险调整后的业绩与图3所示的相同,且在大多数情况下更好。这个结果表明投资组合经理的带来的资产增值传递给了散户投资者。去除机构份额类别后更好的top10%组合表现可以解释为,由于这一细分市场中竞争的情况不一样,这些类别中预测因子和业绩的关联和散户类别中的不一样。通过去除机构类别,我们提高了映射基金特征到基金业绩的函数的精确度。最后,EN、OLS、EW、AW组合的结果都与图3中的结果相似。

    最后,我们研究了深度学习方法的表现。我们实现了最多3个隐藏层的前馈神经网络。图9中的经风险调整的业绩结果表明,使用神经网络获得的基于预测的组合在大多数情况中都获得了正向且显著的净alpha,但相比从最好的GB模型中获得的结果要更低一些。进一步,我们发现与多层网络相比,单层网络产生的组合具有更高的alpha,这表明在这种特定背景下,浅层学习比深层学习更合适。

    机器学习能用于基金组合构建吗?(10)-千筹网

    6.基金特征与基金业绩

    我们的研究结果表明,预测因子与基金业绩之间的关联的灵活性帮助投资者选择能带来正向alpha的主动基金。一个本质的问题是,最佳方法的出色表现是由灵活性单独驱动,还是由灵活性与多变量方法结合驱动,后者利用了多预测因子的预测能力。在这个部分,我们将探讨这个问题。

    我们首先量化了四个预测模型中每个预测因子的相对重要度。图10报告了基于最后一个估计窗口的GB、RF、EN和OLS方法的变量重要度,该窗口对应1980-2017间最大的训练样本。从图10可以清楚地看到,在任何一种方法中都没有单一的特征占主导地位。GB和RF利用基金精度调整后的市场beta来选择基金,但是这些变量在线性模型下是没有这么重要的,线性模型更依赖于精度调整的动量beta。尽管线性模型利用了基金的费率,他们的预测能力被其他非线性模型中的特征所包含。这些差异突出了在预测因子和业绩之间考虑非线性和相互作用的重要性。

    机器学习能用于基金组合构建吗?(11)-千筹网

    为了进一步研究很少量的预测因子对GB方法在选择共同基金方面的影响程度,我们仅使用在每轮估计中选出的2、3和4个最重要的预测因子重复分析。结果见图11。当只使用两个最重要的基金特征来预测业绩时,根据所考虑的所有模型由GB算法选择的top10%组合的收益为负alpha。然而alpha在统计上没有显著不等于0。如果我们还包括第三个最重要的预测因子,除Fama-French三因子外,所有模型的表现都为正但不显著。最后,如果我们将第四个最重要的预测因子包括在内,则top10%投资组合的业绩会显著提高甚至变得显著,尽管在所有情况下它仍然低于每月利用所有预测因素的top10%投资组合的业绩10个基点以上。这些结果表明灵活性不足以解释GB方法在选择共同基金投资组合时的表现,该方法利用了大量不同基金特征及其相互作用所包含的可预测性。

    机器学习能用于基金组合构建吗?(12)-千筹网

    我们的方法的一个重要特点是,我们不主张使用单一的预测因子,而是在新的信息可用时重新评估模型。如果某些特征的预测能力随着投资者学习利用其预测内容的时间而变化,或者如果市场条件或经理策略发生变化,那么这个特征是一种优势。为了研究这种可能性,我们绘制了样本期内每年每个预测因子的重要度并证实了一些最重要的预测因子在其相对重要度方面随着时间的推移表现出很大的变化。

    7.alpha随时间下降了吗

    为了研究基金特征对未来业绩的预测能力随着时间的推移而下降这种可能性,我们评估了在GB、OLS、EW和AW投资组合的5年滚动样本期内,top10%投资组合的样本外表现,结果如图12所示。从图中可以明显看出,GB选择的top10%组合在大多数样本期内始终大幅优于EW和AW投资组合。截止2000年代后期,GB基金组合在每一个5年期的表现都优于OLS基金组合。然而自那时以来GB基金组合和OLS基金组合的表现非常相似。自2015年以来所有四个投资组合在业绩方面趋于一致,在样本的最后几年表现为负alpha。基于预测的组合的业绩下降与Jones和Mo(2020)的研究结果一致。因此,我们可以得出这样的结论:性能最好的机器学习算法能够从共同基金市场中提取alpha,但前提是首先要能提取到任何alpha。

    机器学习能用于基金组合构建吗?(13)-千筹网

    8.结论

    共同基金投资者能否从主动的资产管理中获益的问题受到了学术界、实务界和监管机构的广泛关注。机器学习方法可以利用多个基金特征训练基金,并从中选择在经济上和统计学上有显著正向经风险调整业绩的基金。这种正向的业绩对用于评估业绩的模型是稳健的,机构投资者和散户投资者都可以获得。相比之下,线性预测模型只能帮助投资者避免负向alpha。因此我们的结果表明:投资者,包括散户投资者,可以受益于投资主动管理的基金。

    海外文献推荐:因子选股类

    向下滑动查看往期链接

    第174期:

    第171期:

    第170期:

    第164期:?

    第163期:

    第160期:

    第157期:在 分散化收益的视角下Smart Beta是否仍然Smart

    第154期:

    第144期:

    第142期: ESG投资:从罪恶股到Smart Beta

    第135期:货币政策敞口因子MPE

    动量溢出效应的根源

    第36期:一种新的公允周期调整市盈率( CAPE)预测方法

    第13期 :股票市场波动性与投资学习

    第13期 :社会责任共同基金的分类及其绩效的衡量

    第13期 :因子择时风险导向模型

    第10期:利用信息因子解释回报

    第10期 ;异质现金流和系统性风险

    第9期:“打赌没有β”投资策略研究

    第9期:利用条件信息理解投资组合的有效性

    第8期:因子择时模型

    第8期:优化价值

    第7期:动量崩溃

    第7期 :动量因子及价值因子在投资组合中的运用的实证研究

    第6期:五因子资产定价模型在国际市场上的检验

    第5期:价值的另一面:毛盈利能力溢价

    第5期:卖空比例与总股票收益

    第4期:巨变的贝塔:连续型贝塔和非连续型贝塔

    第4期:全球、本地和传染的投资者情绪

    第4期:投资者更关注哪些因子?来自共同基金资金流的证据

    第4期:总资产增长率与股票截面收益率的实证

    第3期: Beta套利

    第3期:前景理论与股票收益:一个实证研究

    第3期:趋势因子:投资时限的信息能获得收益?

    第3期:时变的流动性与动量收益

    第2期:CAPM新视角:突尼斯和国际市场基于copula方法的验证

    第2期:资本投资,创新能力和股票回报

    第2期:风暴来临前的平静

    第2期:资本投资,创新能力和股票回报

    第1期:三因子与四因子模型对比与动量因子的有效性检验

    第1期:五因子资产定价模型

    第1期:多资产组合中的动量因子影响

    第1期:基于插值排序标准化变量法和复杂变量的平衡分离树的多因子选股模型

    海外文献推荐:资产配置类

    海外文献推荐:事件研究类

    第8期:机构投资者和股票拆分的信息产生理论

    第6期:季节性收益

    第6期:可预测的行为、利润和关注

    第6期:盈余公告与系统性风险

    海外文献推荐:投资者行为类

    下滑动查看 ↓

    第16期:坏习惯和好方法

    第11期:状态变量、宏观经济活动与个股截面数据的关系

    第10期:条件夏普比率

    第9期:强制清算,减价出售与非流动性成本

    第7期:买方与卖方谁发起交易

    第7期:排名效应和交易行为:卖出最差的和最好的,忽略其余的

    海外文献推荐:择时策略类

    海外文献推荐:公司金融类

    向下滑动查看 ↓

    第12期:世界各地的资本结构决策:哪些因素重要

    第11期:财务风险有多重要?

    第3期:机构投资者对公司透明度和信息披露的影响

    海外文献推荐:基金研究类

    海外文献推荐:其他

    向下滑动查看往期链接 ↓

    风险提示:本报告内容基于相关文献,不构成投资建议。

    《天风证券-金融工程:海外文献推荐第175期》

    2021年4月7日(注:报告审核流程结束时间)

  • 千筹网-电影投资领域的领头羊!深研电影、影视投资行业6年,以影视项目投资为契机,提供电影票房真实数据的正规电影投资平台,更多影视投资项目资讯,欢迎登陆千筹网进行咨询!
  • 该文章来自互联网,如有侵权请联系删除
  • 千筹网声明:此消息系转载自本网合作媒体,千筹网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内 容仅供参考,不构成投资建议。
  • 上一篇: 【招商策略】行业景气观察0407——3月份重卡销量再创历史同期记录,钢材价格增长显著
  • 下一篇: 黄金多头小心了!欧洲央行有望从三季度开始缩减紧急购债
  • 热门项目
  • 在线客服
  • 电话客服
  • 微信客服
  • 投资门槛
  • 注册会员即可获得1000元投资优惠券

    (请输入正确手机号,否则优惠券无法领取成功)