你讲的这个信息量非常之大,我现在吸收还是有点困难了。我这么问你吧,我们要一步一步来讲这个事情,你一下子讲太多了,我可能也接受不了。就是第一步我们要防止的是什么?就一开始就是要防止误步入歧途。什么叫步入歧途?我们没有资源,只有一个人,没有其他的这个程序员,只有我自己一个人,我要怎么做这个事情?是不是?而是第一,我们也不是指望说去做一个什么超级的商业软件。是。很可能就是说从原型机验证一个概念做起,而且这个从最简单的入手,因为现在很多的公司也许都是使用浏览器的,而浏览器是最普遍的,所以我们很可能就是说只从这个非侵入式的这个浏览器的这个操作来入手,因为这个东西也最容易解检验。这些你你讲的那些那些公司,很多都是用使用 DOM。 我感觉这个 DOM 这个做法的话,它当然有它的优点,但是呢这个毕竟是一种侵入式的,就是我们之前讲过这个它有很强的准确性。它也更快更容易,但是它一定有它的这种安全性的隐患,而且要预装这些软件。所以我们的做法的话,反而是一个优点,就是非侵入式的。就是说等于是要去利用现在的新的软件,就是以前可肯定是这个 OCR 准确性是有有困难的。所以呢,这些公司都是卖软件的,那么我们不妨去从硬件的角度去做这个事情。我能不能用?我只是现在在想说,我用笔记本也好,一个旧的笔记本也好,或者是一个移动式的,哪怕一个树莓派之类的,它的这个视觉识别的这种 CV 的这种计算能力能不能满足这个办公室操作的这个工作呢?就是说加上一个很便宜的这个一个 web camera 就去做这个事情,加上这个鼠标键盘,相当于一个小的机械式的机器人。因为之前的这个 RPA 他们的概念是什么呢?他的 robotic 就是说是一个加引号的 robotic 是一个虚拟的机器人,是实际上是用软件去模拟一个机器人。那我们为什么不能够说直接就是用一个一台小的电脑,哪怕是树莓派也好,一台旧的笔记本也好,台式机也好,加上一个 web camera 就是他的眼睛,加上一个鼠标键盘就是他的手。就去完成这么一个机器人的这么一个这个这个这个工作呢,他的大脑很有可能也是需要云端的这个多模态模型,但是这个我们仅仅让他去做最高级的决策性的工作,就是给一个路径,什么意思呢?就是说语音识别。用户说,发了一个,拿了一张他的报销的发票,在这个 web camera 上晃一下,给他扫描一下,然后用语音跟他讲说,你现在帮我填一下报报销单。然后我们这个就可以开始,就说在浏览器打开,输入某个网址,公司的网址,然后登录,密码可能要预先设定,这是另一回事。或者用扫码的,等等,不管了,这个先不讲了这些东西。然后就是说哪怕就是说用户自己登录之后,然后你说你帮我去填报销单,然后把这个发票扫描以后,然后我们可能可能这一块报销单也可能是用云端的大模型去扫描,就是说把它这个几个基础框架提取出来,这可能比那个传统的 OCR 来的更好,因为传统 OCR 可能这方面做的不很难做得那么好,我我相信很难做那么好。包括说时间、地点、金额、项目等等。因为报销的时候有匹配,这些这些这个很多公司填各种各样的这个流程都不一定是有的是标准有的不标准,就是这个东西怎么填这个是很头痛的一件事情,人有时候都分不清楚。
那么我们先去做一个低级的硬件采购的工作。我们要去哪里买一个?我现在还没有想的很清楚,这个这个鼠标键盘控制器,它应该是个反向的做法,上次你跟我说过这个东西,就是一个 HID 的这个这么一个芯片,但是有成熟的货架产品。就是我把我的需求跟你再重复一下。我现在比如说我现在要去在我的一个旧笔记本上去操纵这么说吧,我有两台笔记本,一台笔记本是操纵方,另外一台笔记本是这个被操纵方。那么我是不是要去买一个 USB 线的这个键盘跟 USB 的鼠标,但是它实际上是一个仅仅是就是一个 USB 的这么一个一个线,但实际上它是,一鼠标跟键盘,它是放在一个所谓控制器。那么这个这个控制芯片要连在我这个操纵的这个这个笔记本上,我这个笔记本要通过这种等于是模拟这个 XDO Tool 这种,说鼠标移到哪里,键盘移到哪里。那么这么一个硬件叫什么硬件呢?你说是键鼠控制器吗?你给我一个名字或者是一个链接,或者说怎么去搜索搜索这个东西。它是怎么样子连到我们的这个控制方的这个笔记本上,也是一个 USB 的设备吗?嗯你给我一个这个,它的这个名字,或者在哪里买,大概多少钱,或者什么样方案吧。