金融科技(Fintech)和数据挖掘研究(三):量化因子的批量生产与集中管理

类别:投资策略 机构:海通证券股份有限公司 研究员:冯佳睿,余浩淼 日期:2019-06-18

量化因子计算可以定义为一种基于初等计算函数与一阶谓词逻辑的递归过程。量化因子的本质是股票的某种数量化特征,一般需要通过对股票某些数量信息进行计算得到。与计算机函数从“函数输入出发,输入函数计算,得到函数输出”相类似,量化计算过程也可以拆解为“从量化指标出发,输入量化计算,得到新量化指标”。由此可见,计算机函数构成的基本逻辑--递归过程也同样适用于因子计算架构。

    定义量化指标的计算过程有计算机语言与XML文本两种方式。由于λ算子与图灵机、递归函数等价,因此无论是基于λ算子的函数式编程语言,还是基于图灵机的过程、命令范式语言,都可以用来构建量化计算过程。在定义逻辑结构较为复杂的因子时,过程、命令范式语言较为合适。而当需要批量生产因子时,可以表达递归逻辑的XML文本也可以作为递归逻辑描述语言来使用。

    利用自动因子生成器暴力挖掘因子是生产有效因子的重要方式。利用自动因子生成器构建的226个突破型因子,其中有20%-30%在截面上有较好的选股效果。然而,经正交后,效果明显下降。这说明,暴力挖掘方式还是能获取一部分传统因子构建过程中没有挖掘到的信息,但毕竟两种方式具有相同的初始算根,有大量信息被传统因子所解释。

    利用逐笔数据构建的高频因子有着非常突出的效果。构建买入大单成交额占比因子,其截面表现非常优异。利用正交后的因子构建等权组合,可获得接近20%的多空年化收益与9左右的收益回撤比。高频数据的处理成本非常高,目前只能进行15年8月以来的短周期回测,所以,因子表现的稳定性需要进一步跟踪。

    自动构建数据表是进行因子自动化管理的关键要素。依据因子结构进行因子数据库管理是因子计算自动化的重要步骤,而自动构建SQL语句,对数据表进行增删查改是实现这种自动化管理的关键技术。

    风险提示。数据挖掘是从历史先验数据获取经验模型的方法,存在模型失效可能。

数据推荐

投资评级

更多>>
股票名称最新评级目标价研报
拉卡拉 买入 -- 研报
山东药玻 买入 -- 研报
中电环保 中性 -- 研报
贵州茅台 买入 1073.52 研报
中国人寿 买入 -- 研报
中国太保 买入 -- 研报
新华保险 买入 -- 研报
中国平安 买入 -- 研报
柳药股份 买入 42.00 研报
华泰证券 买入 -- 研报
招商证券 买入 -- 研报

盈利预测

评级选股>>

股票关注度

更多>>
股票名称关注度平均评级最新评级
中信证券 35 持有 持有
贵州茅台 35 持有 买入
三一重工 33 持有 买入
华泰证券 28 持有 买入
上汽集团 27 买入 买入
隆基股份 27 买入 持有
五粮液 26 持有 持有
通威股份 25 买入 买入
贵州茅台 25 买入 买入
中国国旅 25 持有 持有
中顺洁柔 25 持有 买入
万科A 24 买入 中性
保利地产 23 买入 中性
恒瑞医药 23 买入 买入
伊利股份 23 持有 持有
芒果超媒 23 买入 持有
三一重工 22 持有 买入

行业关注度

更多>>
行业名称关注度关注股票数买入评级数
电子信息 406 74 216
汽车制造 349 31 208
钢铁行业 337 28 210
化工行业 287 52 96
金融行业 260 24 122
电子器件 259 48 147
生物制药 221 42 126
建筑建材 212 33 97
机械行业 207 42 87
房地产 172 22 111
酒店旅游 172 20 56
家电行业 170 14 102
交通运输 162 23 76
酿酒行业 148 15 84
有色金属 141 34 55
服装鞋类 128 16 69
商业百货 128 19 77