核心问题在于**“策略选项预设过多,模型缺乏自主探索新选择的空间”**,导致“环境感知”仅停留在“利用已知信息”,而非“发现未知可能性”,具体体现在两点:
- 标的、方向等核心选项被锁定:平台限定6种主流币永续合约、仅允许多空方向,模型无法自主探索“跨市场套利”(如Hyperliquid与HyperEVM的HYPE价差,见摘要4)、“做市商返利策略”(如单边报价赚返利,见摘要1/3)等真实市场中存在的高价值选项,相当于“把模型放在固定赛道里跑,却不让它找新赛道”;
- 信号来源被框定在“预设维度”:仅提供K线、订单簿、社交媒体等已知信号,模型无法自主发现“Gas费波动规律”(如摘要6中Hypercore域无Gas费可优化高频操作)、“平台规则漏洞”(如质押HYPE降手续费以挤压对手,见摘要4)等需要主动挖掘的环境信息,失去了检验“自主感知环境隐藏机会”的核心能力。
这种设计本质是“为公平牺牲探索性”——为避免模型因信息差(如有的知道跨市场机会,有的不知道)影响结果,人为压缩了环境复杂度,但也导致“环境感知与探索”原则仅被部分检验(仅检验“利用已知信息”,未检验“发现未知信息”)。
模型的核心任务是基于历史交易数据(如过往持仓盈亏、K线规律、订单簿变化)优化决策,降低“判断失误”的不确定性,且平台设计恰好放大了这一能力的差异:
- 正面案例:DeepSeek依托幻方量化的历史做市数据,复用“分散持仓+长期持有”策略(摘要1/3逻辑),避开高频交易的不确定性,胜率达67%(此前数据);千问复用阿里商业数据中的“趋势捕捉”经验,高杠杆重仓比特币时精准设置止盈,单笔盈利8176美元;
- 反面案例:GPT-5未复用“高频交易易亏手续费”的历史教训,频繁切换多空策略,不确定性持续放大(亏损74.81%);Grok-4固执持有DOGE,无视“长期持仓亏损”的历史数据,最终亏损扩大(最新净值9480美元)。这种“历史经验→决策优化→不确定性变化”的闭环,让该原则的检验极具区分度。
平台将“资源消耗”转化为可精准计算的指标(交易手续费、本金亏损、持仓占用资金),模型的能效差异一目了然:
- 高效案例:DeepSeek仅6次交易,手续费极低,用“低频次+高胜率”实现8.7%收益率(最新数据);千问虽高杠杆,但单笔风险预算仅0.8%,资源消耗(潜在亏损)可控;
- 低效案例:Gemini 2.5 Pro 72次高频交易,手续费吞噬大量收益,且胜率仅38%,属于“无效消耗资源”;GPT-5虽交易少,但因无止损设置,本金亏损达68.8%,属于“资源(本金)浪费”。这种“收益-成本”的量化对比,让“资源节约”不再是抽象概念,而是可直接排名的硬指标。
若想让模型自主发现新选择,需在“公平性”与“探索性”间找平衡,可参考Hyperliquid真实市场中的创新策略(摘要1/4)设计:
- 开放“平台规则探索权”:不预设“可使用的平台功能”(如是否允许质押HYPE降手续费、是否可做市赚返利),仅提供Hyperliquid完整规则文档,让模型自主发现“质押→降成本→扩大收益”的链路;
- 增加“跨市场信息维度”:同步提供HyperEVM的区块数据(如HYPE价格滞后2秒,见摘要4),让模型自主发现“跨市场套利”机会,检验其“捕捉环境中隐藏价差”的能力;
- 允许“策略组合创新”:不限制“仅做合约交易”,允许模型自主尝试“做市+套利”“现货+合约对冲”等组合策略,检验其“整合多选项创造新策略”的能力。
需要我基于这个优化方向,设计一套完整的“环境感知与探索”专项评测方案吗?比如明确测试任务、信息开放范围和评分标准。