保存时间:2026/3/29 22:06:21
| 维度 | 侵入式(DOM/Playwright) | 非侵入式(视觉/OpenCV) |
|---|---|---|
| 核心原理 | 读DOM/控件树,元素定位 | 截图+VLM,像素级语义识别 |
| 速度 | 极快(毫秒) | 慢(秒级,截图+推理) |
| 稳定性 | 高(标准页面),改版易崩 | 极高,UI变化不影响 |
| 侵入性 | 强(需权限、读代码) | 零侵入(只看屏幕) |
| 适用场景 | 标准网页、有API系统 | 旧系统、Canvas、图片按钮、反爬 |
| 代表 | Playwright、BrowserUse | Skyvern、实在Agent、UI-TARS |
循环:
1. 看当前状态(屏幕/网页/环境/游戏节点)
2. LLM 做判断:我离目标近了还是远了?下一步干啥?
3. 执行一步动作
4. 记录:我已经干过啥、别再干
直到:目标达成 / 放弃
你已经做过:xxx禁止重复:xxx优先做:没做过且靠近目标的
当前进度:0~100分
理由:xxx
总目标:帮用户把XX数据导出并做成PPT
1. 设定总目标(固定)
2. 初始化历史记录为空
3. loop:
a. 采集当前状态(截图/网页/文本)
b. 给LLM输入:
- 目标
- 历史(已做步骤)
- 当前状态
要求输出:
- 下一步动作
- 进度分
- 禁止重复动作
c. 如果进度==100,break
d. 执行动作
e. 把这步加入历史(防回头)
循环:
1. 把当前状态丢给模型
- 总目标
- 历史做过什么(updated context)
- 当前环境信息(MUD里就是房间、物品、NPC)
2. 模型输出:
- 下一步干啥
- 要不要更新状态
- 要不要记新东西
3. 程序只负责:存历史、执行动作、再丢回去
你是一个智能体,要一步步完成目标,每一步都要记录已经做过的事,不要重复,不要偏离目标。
目标 = "拿到宝剑,救出公主"
历史 = []
循环:
当前环境 = MUD当前房间信息
喂给模型:
目标:{目标}
历史:{历史}
当前环境:{当前环境}
要求:下一步做什么,不要重复,不要偏离目标
模型返回:动作
执行动作
把这一步加入历史
你现在在xxx房间,你要做什么?
禁止做你已经做过的动作,不要走回头路,不要原地打转。
你现在用的方式 = 自由聊天模式能不转圈、能做长任务的 = Agent循环模式
**那我在 Evennia 里,能不能只靠一段 Prompt,让模型自己:
- 自己记历史
- 自己不打转
- 自己一步步探索 help 菜单不用我写复杂代码?**
总目标:完整探索所有help菜单
历史:
1. 输入 help
2. 看到主菜单:help 1, help 2, help 3...
当前环境:
你现在看到主help界面...
历史更新:
1. 输入 help
2. 看到主菜单:help 1, help 2, help 3...
3. 准备进入未查看的子菜单
下一步动作:help 1
ollama run qwen3.5:7bollama run qwen2.5:7bollama run qwen3.5:4bollama run llama3.1:8bollama run mistral:7bollama pull qwen3.5:7b