从 0 搭建量化交易系统的思考

引言

最近跟几个朋友聊天，发现大家对量化交易都挺感兴趣的，但一提到自己动手搭建系统，就各种犯怵。有的觉得门槛太高，有的担心自己编程不够溜，还有的被网上那些高大上的架构吓到了。其实我自己也是这么过来的，从最早 sekadar 用 Excel 手动算账，到后来慢慢捣鼓出一个能跑的自动化系统，中间踩了不少坑。今天就把我这一路的思考和经验整理一下，希望能给有想法但不知道从哪儿下手的朋友一点参考。

先想清楚自己要什么

我觉得做任何事情之前，最重要的就是搞清楚自己的目标是什么。量化交易也不例外。

你是想做一个全职的量化交易员，还是只想把闲置资金跑跑策略？是追求高频交易那种刺激感，还是更偏向于中长线的价值投资？不同目标对应的系统复杂度完全不一样。

拿我自己来说，最开始就是本着「跑赢通胀」的想法来的，没指望靠这个发大财。所以我给自己定的目标是：一个不需要天天盯盘、能够自动运行、收益能跑赢银行理财的系统就行。这个目标听起来挺朴素的，但正是因为目标定得实际，后面的搭建过程也更加有的放矢。

我建议你可以先回答自己几个问题：

- 打算投入多少资金？

- 每天愿意花多少时间在这件事上？

- 期望的年化收益是多少？

- 能接受多大的回撤？

这些问题想清楚了，再往下走。

数据是基础，别在这上面省钱

量化量化，说白了就是用数据来驱动决策。所以数据质量直接决定了你的系统能走多远。

我刚开始的时候不懂，觉得随便从网上抓点历史数据就能用了。结果后来回测的时候发现数据里有很多缺失值和异常值，导致策略看起来很美好，一实盘就傻眼。所以后来我在数据这块下了不少功夫。

首先是数据源的选择。如果是做 A 股的话，主流的有 Tushare、JoinQuant 这些平台提供的接口，个人使用的话免费额度基本够用。如果要做美股或者港股，Yahoo Finance 的数据质量也还行，但要注意有些历史数据可能有断层。

其次是数据的清洗和存储。我的做法是先把原始数据存下来，然后用脚本定期清洗。清洗工作主要包括：处理缺失值、剔除明显异常的数据、统一时间格式等等。

# 简单举个例子，数据清洗的逻辑大概是这样的
def clean_data(df):
# 去除缺失值
df = df.dropna()
    
# 剔除明显异常的价格（比如负数或者暴涨暴跌）
df = df[(df['close'] > 0) & (df['pct_change'].abs() < 0.5)]
    
# 按时间排序
df = df.sort_values('date')
    
return df

数据存储方面，我建议用数据库而不是单纯存 CSV 文件。SQLite 就够用了，部署简单，查询也方便。

策略框架怎么搭

说完数据，来聊聊策略怎么设计。这块其实弹性很大，不同人有不同的偏好，我分享一下我的做法。

我自己的系统是模块化的，主要分成这几个部分：信号生成、仓位管理、风险控制、订单执行。每个模块独立设计，通过接口连接。这样做的好处是调试方便，改策略的时候不需要牵一发而动全身。

信号生成是最核心的部分，也就是你用什么逻辑来决定买还是卖。最简单的可以是均线交叉、MACD 这些经典指标，复杂一点的可以用机器学习模型。我的建议是刚开始别玩太花的，老老实实从简单的策略开始。不是说简单策略就不好，实际上很多复杂的策略最后跑下来还不如简单的均线策略靠谱。

仓位管理也很关键。满仓干还是分批建仓？每次买多少？这都直接影响你的风险收益特征。我自己是比较保守的类型，一般单只股票不超过总仓位的 20%，而且会预留一部分现金应对突发情况。

# 仓位管理的简单示例
def calculate_position(signal_strength, total_capital, max_position_pct=0.2):
"""
signal_strength: 信号强度，0-1 之间
total_capital: 总资金
max_position_pct: 单只股票最大仓位比例
"""
max_position = total_capital * max_position_pct
target_position = max_position * signal_strength
return target_position

风险控制这块，我把它放在很高的优先级。具体来说，包括止损设置、单一标的最大亏损限制、整体组合的最大回撤限制等等。这些规则一定要在系统里固化下来，不能靠人工临时判断。人性的弱点大家都懂，真到了亏钱的时候，很容易下不去手止损。

回测那些坑

回测是验证策略的第一步，但这里面的坑特别多，我踩过好几次。

最常见的坑是「过度拟合」。简单来说，就是你的策略在历史数据上表现特别好，但放到未来就不行了。这是因为你可能无意中对数据做了太多的「优化」，导致策略只是适应了历史数据的某些特定模式，而不是真正捕捉到了市场的规律。

怎么避免过度拟合？我的经验是：

- 策略逻辑尽量简单，参数不要太多

- 用不同的时间段分别回测，看看结果是否稳定

- 样本外测试很重要，把数据分成训练集和测试集

另一个大坑是「未来函数」。就是不小心用了回测时间点之后才能知道的信息。比如你在计算某天的信号时，用了当天的收盘价，但实际交易中你是不可能在这个价格成交的。这种错误会导致回测结果严重失真。

还有一点要提醒的是，回测出来的收益通常是要打折扣的。手续费、滑点、流动性限制这些因素在回测里往往被低估了。我自己的做法是在回测的时候把手续费设高一点，比如默认千分之一，这样结果更保守，也更接近真实情况。

实盘和持续迭代

策略回测通过了，接下来就是实盘检验。这又是另外一回事了。

实盘之前，建议先用小资金跑一段时间，观察系统运行是否稳定。我自己第一次实盘的时候，遇到了各种奇怪的问题：网络断开导致订单没发出去、数据延迟导致信号不准确、交易所接口报错等等。这些问题回测是不可能发现的，只能在实盘中慢慢暴露。

还有一个很重要的点是心理建设。即便你的系统设计得很完善，实盘的时候看到账户浮亏，还是会忍不住怀疑人生。这时候一定要信任自己的系统设计，不要主观臆断去临时修改策略。当然，前提是你的系统本身是经过充分验证的。

最后就是持续迭代了。市场在变，你的策略也需要不断调整。我的做法是每个月复盘一次，看看策略的表现是否符合预期，哪些地方可以优化。但注意，复盘归复盘，别频繁改策略，不然又回到了过度拟合的老路。

写在最后

搭建量化交易系统这件事，说难不难，说简单也不简单。关键是要动手去做，在实践中学习。

我的建议是：从小处着手，先跑通一个最简单的流程，然后再逐步完善。不要想着一上来就搞个完美系统，那是不可能的。先跑起来，在跑的过程中发现问题、解决问题，这才是正确的路径。

量化交易本质上是一种思维方式的转变，从「凭感觉」变成「用数据说话」。这个过程本身就挺有意思的。至于最终能不能赚到钱，反而是其次的收获了。

好了，今天就聊这么多，希望对大家有帮助。如果有什么问题，欢迎在评论区交流。

彼方の旅人

从 0 搭建量化交易系统的思考

从 0 搭建量化交易系统的思考

引言

先想清楚自己要什么

数据是基础，别在这上面省钱

策略框架怎么搭

回测那些坑

实盘和持续迭代

写在最后

从 0 搭建量化交易系统的思考

评论交流