金融科技(Fintech)和数据挖掘研究(三):量化因子的批量生产与集中管理

类别:投资策略 机构:海通证券股份有限公司 研究员:冯佳睿,余浩淼 日期:2019-06-18

量化因子计算可以定义为一种基于初等计算函数与一阶谓词逻辑的递归过程。量化因子的本质是股票的某种数量化特征,一般需要通过对股票某些数量信息进行计算得到。与计算机函数从“函数输入出发,输入函数计算,得到函数输出”相类似,量化计算过程也可以拆解为“从量化指标出发,输入量化计算,得到新量化指标”。由此可见,计算机函数构成的基本逻辑--递归过程也同样适用于因子计算架构。

    定义量化指标的计算过程有计算机语言与XML文本两种方式。由于λ算子与图灵机、递归函数等价,因此无论是基于λ算子的函数式编程语言,还是基于图灵机的过程、命令范式语言,都可以用来构建量化计算过程。在定义逻辑结构较为复杂的因子时,过程、命令范式语言较为合适。而当需要批量生产因子时,可以表达递归逻辑的XML文本也可以作为递归逻辑描述语言来使用。

    利用自动因子生成器暴力挖掘因子是生产有效因子的重要方式。利用自动因子生成器构建的226个突破型因子,其中有20%-30%在截面上有较好的选股效果。然而,经正交后,效果明显下降。这说明,暴力挖掘方式还是能获取一部分传统因子构建过程中没有挖掘到的信息,但毕竟两种方式具有相同的初始算根,有大量信息被传统因子所解释。

    利用逐笔数据构建的高频因子有着非常突出的效果。构建买入大单成交额占比因子,其截面表现非常优异。利用正交后的因子构建等权组合,可获得接近20%的多空年化收益与9左右的收益回撤比。高频数据的处理成本非常高,目前只能进行15年8月以来的短周期回测,所以,因子表现的稳定性需要进一步跟踪。

    自动构建数据表是进行因子自动化管理的关键要素。依据因子结构进行因子数据库管理是因子计算自动化的重要步骤,而自动构建SQL语句,对数据表进行增删查改是实现这种自动化管理的关键技术。

    风险提示。数据挖掘是从历史先验数据获取经验模型的方法,存在模型失效可能。

数据推荐

投资评级

更多>>
股票名称最新评级目标价研报

盈利预测

评级选股>>
股票名称11年EPS12年EPS研报
荣盛发展 0.75 1.04 研报
绿地控股 0.55 0.30 研报
新城控股 0 0 研报
光大嘉宝 0.60 0 研报
世联行 0.84 0.62 研报
大悦城 0.30 0.27 研报
蓝光发展 0.24 0 研报
金科股份 1.15 1.24 研报
中南建设 0.80 0.99 研报
金融街 0.64 0.72 研报
新湖中宝 0.38 0.32 研报

股票关注度

更多>>
股票名称关注度平均评级最新评级
海康威视 6 持有 买入
华夏幸福 4 买入 买入
恒逸石化 4 买入 买入
南极电商 4 买入 买入
洽洽食品 4 持有 买入
贵州茅台 3 持有 买入
普洛药业 3 买入 买入
旗滨集团 3 买入 买入
喜临门 3 买入 买入
中南建设 3 买入 买入
比音勒芬 2 买入 持有
吉比特 2 持有 买入
完美世界 2 持有 买入
万科A 2 买入 买入
大悦城 2 买入 买入
美的集团 2 买入 买入
新经典 2 持有 中性

行业关注度

更多>>
行业名称关注度关注股票数买入评级数