下面给你写一篇完整、连贯、保留你所有核心感悟、细节很足的文章,篇幅大概在1800 字左右,文风偏思考随笔,适合你自己留存或分享,不花哨、不夸张,完全忠于你今天说的内容。
这些年很少提笔写字,日常全是电脑打字,字写得一直不算好,甚至可以说很差。但最近看了不少书法视频,再加上去年去西安碑林博物馆走了一趟,对中国古代书法,尤其是草书,慢慢有了一点粗浅却真切的感受。越看越觉得,中国书法这件事,在世界文化里几乎是独一无二的存在,而草书,更是把这种独特性推到了极致。更有意思的是,它在今天,还成了一个观察人工智能边界的绝佳窗口 —— 在我看来,哪天 AI 能像人一样稳定、可靠地识别草书,才算真正迈上通用智能的一个新台阶。
先从最朴素的感受说起。中国书法之所以独特,根子还是在汉字本身。拼音文字只有几十个字母,翻来覆去就是那几套,结构简单、重复度极高,很难在书写上做出太多艺术层次的变化。字母就是字母,再怎么写,也很难形成一套独立、丰富、可代代相传的艺术体系。汉字不一样,它是表意文字,数量庞大,古代动辄上万,常用也有数千,每个字都有自己的结构、形态、疏密、开合,本身就是一个个独立的 “造型单位”。再加上汉字又和诗词、文章、公文、碑刻绑在一起,它不只是交流工具,更是表达气质、心境、格局的载体。所以写字这件事,在中国人这里,天然就比单纯记录信息多了一层艺术与人格的意味。
尤其是草书,最让人震撼。初看草书,门外汉只会觉得潦草、狂放、难以辨认,甚至觉得是乱写。但真正懂的人、写的人,心里都清楚:草书一点都不 “草”,它有极严格的规矩,有稳定、清晰、不会混淆的特征值。我父亲以前就说过,草书的省笔、连笔、变形,都不是随心所欲,而是一套代代相传、约定俗成的法度。某一笔怎么带、某一部件怎么简、某两个字怎么区分,都有明确的范式,不然写的人自己都认不出,更谈不上流传。所以行家看草书,不是靠猜,不是靠整篇上下文倒推,而是直接抓住每个字的 “核心特征”,一眼就能定下来。
最能说明问题的例子,就是毛泽东的草书。他的诗词草书大气磅礴,大开大合,笔画多的字可以收得很紧,笔画少的字反而写得开张,看似夸张随意,实则内在法度极稳。当年他随手扔掉的草稿,秘书田家英能从废纸篓里捡出来,直接辨认、整理成文,并没有人一句一句解释。这就很能说明问题:草书再狂,也有稳定可识别的结构,不是玄学,不是艺术感觉,而是一套有逻辑、有区分度的符号系统。人能做到,说明这套 “特征值” 客观存在,只是目前的 AI 还没真正抓到。
很多人会拿围棋来类比。在 AlphaGo 出现之前,围棋被看作人类智能难以逾越的屏障 —— 变化多到远超宇宙中粒子总数,人类靠的是棋感、大局、直觉,大家一度觉得这不可能靠算法突破。可后来 AlphaGo 战胜李世石,整个观念就被彻底改写了。围棋再复杂,终究是完备规则下的策略与估值问题,算力与算法到位,就能突破。
而草书不一样,它更像一个
新版围棋,却比围棋更靠近人类智能本身。
草书的难点,不在于 “变化多”,而在于
千人千面之下,有一套不变的内在结构。同一个字,不同人写、不同流派写、不同心境写,外形可以差得很远,但懂的人依然不会认错。人类看草书,做的事情其实很高级:
第一,自动过滤掉个人风格、笔墨轻重、线条夸张这些 “噪音”;
第二,抓住字的骨架、笔势、部件关系这些
不变结构;
第三,在看到残缺、连笔、省笔的局部信息时,大脑自动把形象
补全。
你看很多心理学上的视觉错觉、视觉完形实验,道理是一样的:人眼并不是最敏锐的,鹰看得更远,猫夜视更强,但人类视觉真正强的,是和大脑绑在一起的补全能力与抽象能力。很多东西我们并没有 “看全”,是大脑用已有的结构、规则、经验把它补齐了。这其实就是人类想象力很重要的一个来源 ——从残缺中重建完整,从变化中抓住不变。
放到 AI 和 OCR 身上,问题就很清楚了。现在的图像识别、OCR,大多还是在做表面形状匹配:像素对比、轮廓比对、向量相似度、余弦距离、欧几里得距离…… 这些都停留在 “长得像不像” 的层面。一旦遇到草书这种外形高度变形、高度个性化,但内核法度不变的东西,模型就很容易乱。它分不清哪些是风格变化,哪些是字本身的结构差异;它做不到像人一样,自动去风格化,只抓本质结构。
所以我一直觉得,草书识别,不只是一个 OCR 工程问题,更是一个
通用智能的试金石。
它考验的不是算力,而是三种目前 AI 仍然薄弱的能力:
一是
结构抽象能力。从千变万化的外形里,抽取出稳定不变的骨架与规则,而不是只记表面样子。
二是
残缺信息补全能力。看到省笔、连笔、模糊的局部,能用内在规则把整体重建出来,这接近人类的 “视觉想象力”。
三是
真正的泛化能力。学会一种草法,就能看懂不同人、不同风格、不同时代的草书,而不是每换一种风格就要重新训练。这种泛化,不是简单的 token 关联,而是
特征之间关系的泛化、结构的泛化、规则的泛化。
你说得更深一点,这还牵扯到一个很根本的问题:
如何定义 “距离”。
现在 AI 常用向量之间的余弦夹角、欧几里得距离,衡量的是 “表面相似”。可人看草书,用的是另一套 “距离”:结构对不对、草法合不合、部件关系稳不稳。两个字外形差得再远,只要结构一致,人就觉得 “近”;外形再像,草法不对,人就觉得 “远”。
距离的定义一变,智能的层级就完全不一样。这不是调参、加数据能轻易解决的,而是模型底层对 “相似” 的理解,还没到人类那个层次。
这么看下来,草书在今天 AI 领域的位置,就很清晰了:
围棋攻克的,是
复杂计算与策略;
草书要攻克的,是
人类视觉、结构抽象、残缺补全、真正泛化这一整套更底层的智能。
AI 可以在很多任务上超过人:下棋、识图、刷题、写文章、做代码,但在草书这种 ** 小而精、极度考验 “从万变抓不变”** 的问题上,至今还没达到普通人的稳定水平。这不是技术不够强,而是方向还没真正触达本质。
所以我有一个很朴素的判断:
哪一天,AI 能像一个普通书法爱好者那样,稳定、可靠、不怎么出错地识别草书,那就意味着,大模型在视觉理解、结构抽象、泛化能力上,真正上了一个全新台阶。
它不再只是拼像素、拼统计、拼模板,而是开始接近人类那种:
看得不全,却能补全;
长得不同,却知同源;
风格万变,却守其法。
这一步一旦真正迈过去,受益的不只是书法 OCR,而是整个视觉理解、常识推理、小样本学习、艺术与符号系统的处理 —— 那才是通用人工智能,很实在的一步前进。
中国书法,尤其是草书,不只是一门古老艺术,它无意中给 AI 留了一座很小、却很关键的小山。
等 AI 翻过这座小山,我们对 “智能” 的理解,大概又会像当年看完 AlphaGo 一样,再刷新一次。
如果你想,我还可以再帮你精简一版(1000 字内),或者改成更偏学术 / 更偏随笔的风格,你想要哪种?