随着机器学习和人工智能的兴起,预测从未像现在这样容易:只需几行代码,就可以在初露头角的数据爱好者处轻松访问最新模型,且他们已经准备好随时攻克可能遇到的一切任务。
但是一知半解是危险的,虽然机器学习的大部分可以归因于统计和编程,但同样重要的是领域知识,但它往往被忽略。这一点在投资领域最为明显。
近日,拥有数据科学硕士学位的投资者Mike M撰文指出他认为的估摸预测模型不准确的五大原因。
原文如下:
在股票价格和基础数据都是可访问和免费的环境下,不加选择地应用预处理技术和机器学习算法将产生随意的结果。
金融时间序列数据的信噪比一直都非常低,这种细微差别令人难以置信,从业人员花费了大量的精力来尝试实现难以捉摸的目标,但只有少数成功。因此,需要对数据进行更深入的了解,并且找出其成功的共通之处。
因此,本文旨在阐明股票预测项目投产后可能失败的一些常见原因。
1. 选择性偏差
很多项目都是从任意选择一只股票开始的,这只股票通常是苹果(Apple)或亚马逊(Amazon)等科技公司的股票,原因很简单,这些公司众所周知,并在消费者的日常生活中根深蒂固。
这是有问题的,因为选股不是一个任意的过程,它是投资决策过程的一部分,本身需要一个模型。
以苹果为例,如果我们将其2019年的表现与更广泛的标准普尔500指数(SP 500)进行对比,我们会发现苹果的表现比该指数高出近60%。
亚马逊、微软和谷歌的情况大致相同,因为美国科技板块是2019年表现最好的板块。
从该领域任意挑选一只股票作为开始,将严重扭曲投资机会集合的特征。
2. 投资组合构建
对稳健的投资策略来说,控制风险与产生回报同样重要。如果选股是投资过程的第二步,那么投资组合的构建就是至关重要的下一步。
许多项目会建议购买或出售特定的股票,但通常会假设所有的潜在投资组合都将投资于该股票。
在实践中,这种情况很少发生,单一的投资会让投资者容易受巨大的集中风险。审慎构建的投资组合是最重要的风险控制方式之一,因此可以很好地分散风险。
一个可行的机器学习投资策略应该同时考虑股票选择和投资组合的构建。
3. 不正确的预处理应用
标准化清洗和重复数据预处理技术不能直接应用于股票价格。
下面标普500价格水平年度分布图可以给出一些直观的解释:
在机器学习的标准训练/测试分割范式中,预处理是通过对训练集的参数进行转换,应用于测试集,并明确假设训练样本和测试样本来自相同的样本。
可以清楚地看到,股票价格的分布是逐年变化的,也就是说,其均值和标准差也会发生变化。
金融时间序列的这一特性称为非平稳性,在投资预测中仍然是一个未解决的问题。
它也可以观察到,分布很少是正态的,这使得参数度量(例如均值和标准偏差)变得毫无意义。
此外,采用其他常用的(如最小/最大归一化)方法并不能解决这个问题,因为下限也会逐年变化,并且理论上价格也没有上限。
从业人员通常会应用价格差异转换(股票价格回报),但是这并不能完全消除股票价格的一些不利属性。
4. 前瞻性偏差
虽然现在只需要几行代码就能得到股票和宏观经济基础数据的有意义的历史,但我们需要认识到,这些数据存在前瞻性偏差的困扰。
通常,与特定日期相关的观察结果,实际上在那个日期是不可用的。
例如,股票基础数据依赖于在一个有效日期报价的报告,该日期通常与公司的财务日历相对应,然而,该报告直到有效日期数月后才发布,这反映了准备时间。
在宏观经济数据中,这种偏差是在最初信息发布后的一个季度对前期数据进行修正的结果。
这对短期交易策略来说尤其是问题。任何使用这些数据集的项目都应该考虑数据的滞后和修正。
5. 项目未完成
许多股票预测项目将像常规的机器学习项目一样结束,其中披露了性能指标(例如准确度或RMSE)以及测试与训练效果的折线图,并认为如果两条线足够接近且误差合理低,那么该项目就成功了。
这个过早的结论忽略了发现成功策略的关键一步:测试投资结果。
投资不能被简化为将无形的错误率最小化的简单练习,因为错误所带来的后果的是真实的。
最后一步应该是对该策略进行回测,就像它在一段时间内一样,并计算利润/亏损或回报。
测试人员还需要考虑,如果投资组合在测试中有显著的损失,他们要首先考虑是否具备承担该风险的能力,然后再考虑是否继续执行该策略。
一个简单的例子是使用指数加权移动平均策略(EWMA),它将过去价格的衰减平均值作为未来价格的预测。
乍一看,EWMA对标普500指数的预测非常准确,但如果我们仔细观察今年年初市场下滑的时期,就会发现情况并非看上去那样。
尽管蓝线和橙线似乎紧密相连,但EWMA策略仅能融合过去的信息,即它只包含了过去的信息,无法应对日内波动的信息,因此往往导致它预测上涨,但实际是下跌,反之亦然。在此期间采取这种策略,其表现将逊于标普500指数。
结论
在开始一个股票预测项目之前,特别是在你打算投入实际资金的项目之前,先对这个主题做一些研究并了解数据是有好处的。
如果结果好得令人难以置信。由于参与者的数量越来越多,而且参与者的水平也越来越高,市场在价格发现方面极其有效,尤其是在股票方面。
尽管这可能不会排除潜在机会的可能性,但这意味着需要比即时可用的算法和标准预处理技术更多的努力才能找到它。
上一篇:金智科技:关于公司股票复牌的公告