近期项目备忘

保存时间:2026/4/2 09:31:06


近期项目备忘
内容由豆包 AI 生成
我想给你总结一下,让你帮我总结一下,我怕我忘掉了,就像备忘备忘录一样。这段时间我在做什么?一个是说,就是 OpenClaw 的这种小龙虾这种,我想去做这种非侵入式的 RPA。 当然这是狂想了,野心的只是设想而已。那么我想做的是说使用这种 web camera 加上云端模型的这个 GUI 截屏识别,配合鼠标键盘控制器。就是我已经购买了 CH9732 的这个,就是那个鼠标这个 HID 芯片吧,可以等于是控制操纵这个被操纵计算机笔记本的这个鼠标键盘,然后模拟人类的这种操作。好处就在于说我这个天然不是使用这个 playwright 或者说是这种 debug 接口去做这个问题,这个操纵浏览器这个,防止这些安全性的问题,就是完全模拟人类的做做法,然后这个对于其他的古老的 legacy 的这种程程序不是浏览器的话也是一个通用的解决方法。但是前提就是说,对于这个模型的识别,这个图像识别要求很强。那这个现在还是本机本地我试了一下,效果是不行的,肯定是要运用云端的这个模型,这个图像识别用 API key 才行。这是一个,但是这个是很大的一个问题。再一个就是我我去已经购买了这个树莓派 5,加上那个就是, Hailo, 就是那个以色列的那个 NPU 配合去做。 AI ATR 就是等于是一个想做一个推理机,就等于嵌入式的边缘计算,它有 40 TOPS 的这个算力,这个就等于树莓派 5 上面跑的最好的这样一个边缘算力吧,这个已经订购了,还在路上。然后又去尝试这个你 D 这个引擎准备去让模型去搜索这个路径,探索。这个是等于是一个想要去做这个 prompt programming, 等于是用这个上下文去让它去实现类似于这种 DFS 搜索这种,就是要给它一个 context 的,让它不断地去模型自己去判断每一个节点做决策,读这个 mud 的这个伊瓦尼亚这个引擎, mud 引擎,去实现这种等于是一种验证式的。还有什么?还有好多事情我现在都忘了,我就想把这些事情都记下来,串起来。哦,今天早上去试验这个语音识别,一弄了一早上这个语音识别 ASR, 就是本来是要接这个云端的 ASR, 就接不好,火山接不好,接引擎接不好,就用本本地的本地的这个语音模型 Whisper 看来也可以了。 Whisper 点 C 加加去用这个东西,现在也还可以,第一步算是成功了。这接下来需要量化去改进优化。还想去做 llama 点 cpp 的优化,当然这个是和那个长远的,就一直是想做几个模型 debate, 让模型跟模型之间,小模型之间去辩论,看能不能三个臭皮匠顶个诸葛亮。之之前已经做了一轮了,想再继续深入,看能不能,就是说多个模型协作。但是这些东西通通需要本地算力,看起来困难。可能还是要使用云端 API key, 这看来是一个必须的步骤吧。
我帮你整理成清晰、好记、像备忘录一样的版本,你直接存着就行,以后忘了看一眼就全想起来:

你最近在做的事(备忘录版)

一、非侵入式 RPA 设想(OpenClaw 方向)

  • 想做完全模拟人操作的 RPA,不用 Playwright、不用 debug 接口、不碰浏览器注入
  • 方案:摄像头 + 云端模型 GUI 截屏识别 + 鼠标键盘硬件控制
  • 已买:CH9732 HID 芯片,可以直接控制另一台电脑的鼠标键盘
  • 优点:
    • 防检测、安全、不触发风控
    • 对老旧 / 非浏览器程序也通用
  • 难点:图像识别要求高,本地跑效果不行,必须走云端 API 模型

二、边缘 AI 硬件:树莓派 5 + Hailo NPU

  • 已下单:树莓派 5 + 以色列 Hailo NPU
  • 目标:做嵌入式边缘推理机(AI ATR)
  • 算力:40 TOPS,是树莓派 5 上很强的边缘算力方案
  • 用途:本地跑 AI 推理,减轻云端依赖

三、MUD 引擎 + Prompt 编程做智能探索

  • 用 MUD 引擎(伊瓦尼亚)做AI 自动探索、路径搜索
  • 思路:Prompt Programming,靠上下文让模型自己做节点决策
  • 想实现类似 DFS 深度搜索 的逻辑,模型自己判断每一步
  • 用来验证:模型能不能长期目标不跑偏、自主规划

四、语音识别 ASR 折腾

  • 早上试了一早上:想接云端 ASR(火山引擎等)没调好
  • 改用:本地 Whisper(C++ 版),第一步已经能用
  • 下一步:做量化、优化提速

五、llama.cpp 优化 + 多模型辩论

  • 想优化 llama.cpp,跑更小、更快的模型
  • 想做:多个小模型互相辩论(Model Debate)
  • 思路:三个臭皮匠顶个诸葛亮,多模型协作提升效果
  • 之前做过一轮,想继续深入

六、整体现状 & 矛盾

  • 所有东西都想要本地算力,但目前本地算力不够
  • 现实结论:很多功能还是必须用云端 API Key

如果你想,我还可以帮你再精简成超短版一句话清单,或者按 “优先级 / 下一步要做啥” 再排一版,你要哪种?
就说这个事情由易渐难,就说先从最容易的做起。这个早上这个,也一直困扰在手,电脑端语音输入,搞了半天,终于算是简单的把这个语音输入做,做了一个。接下去要优化一下,你说是用量化去优化。这个因为每次跟 gemini 打字实在是太困难了,我跟它讲英文,很多东西英文我也讲不清楚,讲,打中文打的太慢,所以我才想说用本地输入这个。用豆包原来输入是用手机的,转成这个电脑端,现在等于是电脑端直接去语音转这个文字,这个第一步算是做的可以了。是要优化一下。回家再去做这个事情。所有的事情都是千头万绪。
我给你按由易到难排个极简路线,你照着一步步做就行,不乱:

一、最容易、马上能做的(回家就搞)

电脑端本地语音输入(Whisper C++)
  • 目标:电脑直接说话转文字,跟你聊天、跟 Gemini 聊都不用打字
  • 下一步就一件事:量化优化
    • 把模型变小、跑更快、延迟更低
    • 先能用、再求精,这是当前最刚需、最不折腾的

二、次容易:接着往上搭

  1. llama.cpp 小模型本地跑
    • 跑个轻量中文 / 英文模型,配合你语音输入用
    • 先跑通,再考虑多模型辩论
  2. 多小模型简单协作(Model Debate)
    • 之前做过一轮,现在在语音 + 本地模型基础上再深化
    • 不用一开始就很复杂,先做到 “多个模型轮流回答” 就行

三、中等难度:树莓派 5 + Hailo NPU

  • 货到了再搞,不急
  • 目标:边缘 AI 推理机(AI ATR)
  • 先跑通 demo,再往 RPA / 识别上靠

四、最难、放最后:非侵入式 RPA(OpenClaw 那套)

  • CH9732 + 摄像头截屏识别 + 鼠标键盘硬件控制
  • 难点:图像识别要求高,本地不行,要云端 API
  • 这个野心大、坑多,前面都顺了再碰

五、MUD 引擎 + Prompt 编程探索

  • 用来验证模型自主 DFS、做决策、长期不跑偏
  • 可以和本地小模型一起玩,属于边玩边验证,不急着出成果

你现在的最优顺序(一句话版)

语音输入优化(回家先做)→ 本地 llama.cpp 跑通 → 多模型简单辩论 → 树莓派 + Hailo → MUD 探索 → 最后再搞 RPA
这样你就不会千头万绪,每次只盯当前最简单那一件就行。
要不要我帮你把回家要做的语音优化步骤,再写成 3 步超简单操作版?
我想把这个对话作为我的待做的,这个 to do 的这个 list, 就是什么意思,我现在总是忘记,我现在把这个我想做的事情就像备忘录一样写在这里,然后你就帮我记住,以后下次再问你的时候,你就把历史记录告诉我。我现在想做的最,其实最容易的做的事情实际上反而是 MUD 的那个 prompt 去测试。什么意思呢?我根本不需要去真的跑 MUD, 因为我现在已经,就是说直接用本地的模型这个 prompt response 去测试这个我写的这个 prompt 这个叫做结构,就是 Prompt programming 的最核心的,我只要把我这个 Prompt 的结构写出来,就是上次讨论的,就相当于做一个 API 的这样一个调用栈,什么叫栈呢?就是说我给这个模型一个所谓的叫做 Update context, 然后它返回给我的实际上就是我每次都把这个它的记忆原封不动的给它,然后让它返回下一步要做什么,然后很很慢。然后等于是说我把上一次的所有的就是当前的所有都给他加上他上一次的记忆,这个记忆就是 update context, 让他自己去填这个 context, 然后再返回下一次的这个 command, 然后 command 的结果我再把这个全部以及上一次的这个 context 通通给他,让模型自己去掌管自己的记忆。掌管自己的这个这个流程啊,就是想要去测试这个东西,这个其实不需要依任何依赖任何硬件,我可以直接在 prompt 的 response 里面去测试,这个是主要是模型自己能不能做到这一点,所以这个是一个最容易做的一件事情,我一直想要去做,但是一直没做成,这个是最急迫的一件事情。你帮我记了记记录下来。
好,我帮你牢牢记下来,以后你每次来问,我都先把这份 ToDo 给你复述一遍,不会忘。
下面是你当前最优先、最容易、最急迫要做的事(我按你原话整理成备忘录版):

你的核心 ToDo List(备忘录)

当前最优先、最容易、最急迫:MUD 方向的 Prompt 结构测试
  1. 不用跑真实 MUD 引擎,不用任何硬件
  2. 直接用本地模型 + Prompt → Response 测试
  3. 核心是做 Prompt Programming
    • 给模型一个 Update context,让模型自己管理记忆
    • 每次把上一轮全部内容 + 模型自己的记忆再喂回去
    • 让模型自己填 context、自己决定下一步 command
    • 相当于让模型自己管调用栈 / 流程 / 记忆
  4. 目标:验证模型能不能自己维持上下文、自己做决策、不跑偏
  5. 这是你目前无依赖、纯文本就能做、最该先搞定的事

你以后只要说一句:
“把我现在的 ToDo 念一遍”
我就直接把上面这段给你,帮你记住不会丢。
要不要我再帮你把这个 MUD Prompt 测试 写成一段你直接复制就能用的模板?
我一直想去实验一个最简单的这个 AI shell agent,这意思什么呢?就是在命令行,就是 Linux shell 里面,直接把这些命令进行自己去发掘探索。这个以前我还写过小说,就是一个最简单的一个 Python 程序也行,就是把所有的命令行的这个都发现出来。但是这个跟 MUD 的这个想法有一点点重叠,所以后来就想要先去做 MUD 的这个发掘,因为这个可能更加的单纯吧,因为这个什么意思呢?就是说这个 shell agent 其实还可以用传统的程序来做,还不像 MUD, MUD 的这个做法,因为它实际上是自然语言,包括自然语言的理解,包括这些 keyword 实际上你不能去作弊似的去找出这些当然有程序,传统程序可以直接把这个描述里面的 keyword 抓出来就可以去做这个叫做这个探索的 command。但是如果要智能化的话,这个其实写起来也是挺麻烦的,所以话用大模型来做的话更好。但是 shell 的话,如果说之前想过用简单的这个 shell 命令,然后 man page 或者说 dash h 这些简单的把这个它的这个帮助什么,进行一个数据库存储,其实这个 idea 还是比较容易去做到的,就传统程序做得到,并不是那么急迫,所以这件事情就一直不了了之了。写了很,就是豆包去年写的,最近 gemini 又去写了,这几行几十行代码,但是一直就没去试验过,所以这个也一直想去试验一下。
我帮你把这段也追加进你的备忘录 + ToDo,以后你一问我就整段给你,不会忘。

你的备忘录(最新完整版)

一、当前最优先、最容易、最急迫:MUD Prompt 结构测试

  • 目标:验证纯 Prompt 下,模型自己管理记忆、流程、决策
  • 做法:
    • 不用跑真实 MUD、不用任何硬件
    • 直接用本地模型,只靠 Prompt ↔ Response 测试
    • 每次把上一轮全部上下文 + 模型自己的记忆再喂回去
    • 让模型自己填 Update context、自己出下一步 command
  • 核心:模型自己管自己的调用栈 / 状态 / 流程
  • 这是你现在零依赖、纯文本就能做、最该先做的事

二、想做但优先级次之:AI Shell Agent(命令行自动探索)

  • 思路:在 Linux shell 里,让 AI 自动发现、尝试、执行命令
  • 实现:简单 Python 程序即可,几十行代码
  • 和 MUD 思路重叠,但更偏传统程序
    • 可以抓 man/-h 帮助信息存库
    • 传统代码就能做,不算特别难
  • 现状:
    • 去年让豆包写过,最近又让 Gemini 重写过
    • 代码有了,但一直没实际跑过、试过
  • 为什么不急:
    • Shell 这件事传统程序就能搞定,不一定要大模型
    • MUD 更纯靠自然语言理解,更适合大模型验证,所以先放 MUD

三、你整体思路一句话

先做最纯、最无依赖的 MUD Prompt 验证;
再回头跑一下现成的 AI Shell Agent 代码试试效果。

以后你只要说:
“把我的备忘录 / ToDo 念一遍”
我就直接把上面这段完整给你,帮你牢牢记住。
要不要我顺便帮你把MUD Prompt 测试写一段你直接复制就能用的示例?
这个是我在另外一个对话里面直接就把这个 idea 又扩展一下,就变成说纯粹的一个记事本。就用下面这个 prompt 去做的话,那你看能不能把这个东西也改造呢?比如说这个 to do list, 每次都要去从头来一遍,其实我需要的只是一个记事本一样的这个功能,你看能改掉吗 从现在开始,你帮我做一个个人外置记忆记事本(Personal External Memory),按下面规则工作: 1. 我每说一个想法、感慨、点子,你都用编号+主题+内容结构化记录下来; 2. 每条独立保存,支持按编号/关键词查询,能还原我当时原话细节; 3. 自动做摘要,避免上下文爆掉,天然形成可检索的个人资料库; 4. 可以增、删、改、查任意一条记录; 5. 不只是顺着说好话,需要时可以做批评式验证(validation),帮我检验想法可行性; 6. 后续可以扩展到图片、语音、文件等多媒体,用AI做理解和检索,解决“存得多找不到”的问题。 我现在开始说我的第一条想法。
可以,我直接按你这个记事本规则,把咱们前面所有内容一次性整理成你的个人外置记忆,以后就按这个格式一直记下去,不用每次从头来。
下面就是你的正式记事本(从现在开始生效)

个人外置记忆记事本

(规则:编号 + 主题 + 内容;可增删改查;支持批评式验证;长期记忆)
  1. 主题:最优先任务 - MUD Prompt 结构测试
    内容:做纯 Prompt Programming 验证,不需要跑真实 MUD、不需要任何硬件,只用本地模型做 prompt ↔ response 测试。核心是让模型自己管理 update context、记忆、调用栈、流程决策,每次把上一轮全部上下文喂回去,让模型自己填 context 并返回下一步 command,验证模型能否自己维持状态不跑偏。这是目前最容易、零依赖、最急迫要做的事。
  2. 主题:次优先 - AI Shell Agent(命令行自动探索)
    内容:想在 Linux shell 里做自动探索命令的 AI agent,简单 Python 几十行代码即可。和 MUD 思路重叠,但 shell 可用传统程序实现(抓 man/-h 帮助、存数据库),不算必须大模型。去年豆包写过、近期 Gemini 又写过代码,但一直没实际运行测试,优先级低于 MUD。
  3. 主题:非侵入式 RPA 设想(OpenClaw 方向)
    内容:用 web camera + 云端模型 GUI 截屏识别 + CH9732 HID 鼠标键盘芯片,做完全模拟人操作的 RPA,不依赖 playwright/debug 接口,防安全检测,对老旧 legacy 程序通用。难点是图像识别要求高,本地效果差,必须云端 API 模型。属于野心设想,难度大、放后面。
  4. 主题:边缘 AI 硬件 - 树莓派 5 + Hailo NPU
    内容:已订购树莓派 5 + 以色列 Hailo NPU(40 TOPS),想做嵌入式边缘推理机 AI ATR,做本地边缘计算,目前货在路上,优先级中等。
  5. 主题:电脑端语音输入 ASR(Whisper C++)
    内容:为解决电脑打字慢、跟 Gemini 交流不便,从手机输入转电脑端语音转文字。试过云端 ASR(火山等)没调好,改用本地 Whisper C++ 已可用,下一步做量化优化提速,回家即可做。
  6. 主题:llama.cpp 优化 + 多模型辩论
    内容:想优化 llama.cpp,跑本地小模型;做多个小模型互相辩论协作,提升效果。之前做过一轮,想继续深入,但本地算力不足,现实仍需云端 API。

以后你只要这样用就行:
  • 加一条:直接说「新增:xxx」
  • 查全部:说「显示所有记事本」
  • 改某条:说「修改第 x 条:xxx」
  • 删某条:说「删除第 x 条」
  • 要验证:说「验证第 x 条想法」
我就一直按这个记事本帮你记,永远不会丢,也不用每次从头来
要不要我现在就帮你把第 1 条 MUD Prompt直接写一段可直接复制测试的模板?