# TorchTrade：强化学习做量化，最烦的还是那堆水管

做 RL 量化，很多人一上来就聊 PPO。

奖励函数怎么写，动作空间怎么切，探索要不要狠一点。

这些当然重要。

可真把代码跑起来，最先把人磨没脾气的，往往不是 PPO。是环境，是数据，是回测一套、实盘一套，最后自己都不敢确定训练时看到的东西，和真实下单时是不是一回事。

最近翻到一个项目，TorchTrade。

它基于 TorchRL，想做算法交易的机器学习框架。仓库里写得挺直接：研究到生产，尽量别手工拼两套流水线。

这个点我会多看两眼。

量化里很多脏活，不在论文里。

比如多周期数据。

1 分钟 K 线要看，5 分钟也要看，15 分钟、1 小时可能也得塞进去。数据对齐、状态拼接、环境步进，随便哪块歪一点，后面训练出来的东西都怪怪的。

TorchTrade 把多时间周期输入放进来了。

1m、5m、15m、1h 这些 bar，可以一起进训练环境。不是多高级的概念，但做过的人知道，这活手写起来很烦。尤其你还要让回测和实盘尽量走同一套代码。

少写一遍执行逻辑。

少一个“训练时是这样，实盘时怎么变了”的坑。

算法部分它也没只放一个 PPO 摆样子。

README 里列了 PPO、DQN、IQL，也有 GRPO、DSAC、CTRL。还塞了规则策略 actor，以及用 GPT-4o-mini 或本地模型来做交易决策者。

这块我倒不会太快下结论。

LLM 做交易决策，听起来容易写成噱头。但把它当成 actor 的一种，放进同一套环境里跑，至少实验会方便一点。能不能赚钱是另一回事，先别急着神化。

实盘接口也接了一些。

Alpaca、Binance、Bitget、Bybit。

股票、加密货币都有入口。尤其是 paper trading、撮合、延迟、下单这类东西，不接真实接口，很多问题根本暴露不出来。回测曲线再漂亮，到了真实盘口前面，经常另一张脸。

项目现在还不算成熟。

README 里也写了，仍在活跃开发，API 可能变。当前重点还是单资产环境，多资产组合、跨资产交易还在后面。

所以别把 TorchTrade 当成装上就能跑钱的东西。

它更像是把 RL 量化里那段最乱的水管，先接出一个能看的形状。

我对它感兴趣，也主要是这个原因。

不是它又多了几个算法名，也不是它把交易说得多聪明。是它承认工程链路很烦，并且开始动手拆。

很多时候，alpha 还没轮到你找，人已经卡在数据和环境里了。