科大讯飞有语音识别相关芯片,如 CSK400X 系列,但没有你所说的 Super 或 S2 芯片。
CSK400X 系列芯片采用自主设计 AI 加速器,算力达 128GOPS/s,植入了
科大讯飞的全栈语音能力,涵盖降噪、回声消除、语音分离、本地和云端语音识别、本地和云端语音合成,以及在线全双工交互能力。
当它搭载 ESP32 开发板实现连接云端大模型的语音交互设备时,通常是这样工作的:设备中的麦克风(如 INMP441 全向麦克风)捕捉语音,通过 CSK400X 芯片的语音识别功能将语音转化为文字,再通过 ESP32 开发板连接网络,将文字发送至云端大模型服务器。服务器处理后返回结果,该结果通过语音合成功能转化为语音,经音频功率放大器(如 MAX98357A)放大后由喇叭播放出来。
在一些开源项目中,基于 ESP32 的语音助手就是利用了科大讯飞的语音识别和语音合成 API 来实现上述功能,同时还可能外接显示屏实时显示对话内容,实现人机交互。