做 RL 量化,很多人一上来就聊 PPO。
奖励函数怎么写,动作空间怎么切,探索要不要狠一点。
这些当然重要。
可真把代码跑起来,最先把人磨没脾气的,往往不是 PPO。是环境,是数据,是回测一套、实盘一套,最后自己都不敢确定训练时看到的东西,和真实下单时是不是一回事。
最近翻到一个项目,TorchTrade。
它基于 TorchRL,想做算法交易的机器学习框架。仓库里写得挺直接:研究到生产,尽量别手工拼两套流水线。
这个点我会多看两眼。
量化里很多脏活,不在论文里。
比如多周期数据。
1 分钟 K 线要看,5 分钟也要看,15 分钟、1 小时可能也得塞进去。数据对齐、状态拼接、环境步进,随便哪块歪一点,后面训练出来的东西都怪怪的。
TorchTrade 把多时间周期输入放进来了。
1m、5m、15m、1h 这些 bar,可以一起进训练环境。不是多高级的概念,但做过的人知道,这活手写起来很烦。尤其你还要让回测和实盘尽量走同一套代码。
少写一遍执行逻辑。
少一个“训练时是这样,实盘时怎么变了”的坑。
算法部分它也没只放一个 PPO 摆样子。
README 里列了 PPO、DQN、IQL,也有 GRPO、DSAC、CTRL。还塞了规则策略 actor,以及用 GPT-4o-mini 或本地模型来做交易决策者。
这块我倒不会太快下结论。
LLM 做交易决策,听起来容易写成噱头。但把它当成 actor 的一种,放进同一套环境里跑,至少实验会方便一点。能不能赚钱是另一回事,先别急着神化。
实盘接口也接了一些。
Alpaca、Binance、Bitget、Bybit。
股票、加密货币都有入口。尤其是 paper trading、撮合、延迟、下单这类东西,不接真实接口,很多问题根本暴露不出来。回测曲线再漂亮,到了真实盘口前面,经常另一张脸。

项目现在还不算成熟。
README 里也写了,仍在活跃开发,API 可能变。当前重点还是单资产环境,多资产组合、跨资产交易还在后面。
所以别把 TorchTrade 当成装上就能跑钱的东西。
它更像是把 RL 量化里那段最乱的水管,先接出一个能看的形状。
我对它感兴趣,也主要是这个原因。
不是它又多了几个算法名,也不是它把交易说得多聪明。是它承认工程链路很烦,并且开始动手拆。
很多时候,alpha 还没轮到你找,人已经卡在数据和环境里了。
