1、概述
通过微信小程序wx.startRecord()和wx.stopRecord()接口录音并上传silk录音文件至服务器,通过ffmpeg将silk录音文件转成wav录音文件,再通过百度语音识别 REST API 获取语音识别后的结果。
2、代码实现
录音和语音文件上传
data:image/s3,"s3://crabby-images/4ed88/4ed88eb14c55592be2703d02b3213e281119a664" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
data:image/s3,"s3://crabby-images/87e89/87e89db29d3d5067f8a57d456fee7d49d09b5a24" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
node.js服务端接收语音文件代码
silk文件转wav文件
我使用的是silk-v3-decoder将silk文件转wav文件
data:image/s3,"s3://crabby-images/100b2/100b2f4b0c7d2d7cd390b1d54ba024ed447e20a2" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
silk-v3-decoder 使用方法
data:image/s3,"s3://crabby-images/abbb2/abbb23728f4db2f99e1ccfc36df050562387688a" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
百度语音识别 REST API识别wav文件
1、通过API Key和Secret Key获取的access_token
data:image/s3,"s3://crabby-images/22e06/22e06098ff2e405d14e7ec438078bf6f21153453" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
通过API Key和Secret Key获取的access_token文档
data:image/s3,"s3://crabby-images/5f816/5f81645a1f81e80ffb1ecf122f436ca79c170e0c" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
2、通过token 调用百度语音识别 REST API识别接口
data:image/s3,"s3://crabby-images/8facd/8facdefd1c2892b81887c895dcb65b0f26c67103" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
3、语音识别优化
通过上述操作后,发现识别的内容和实际内容差别很大
data:image/s3,"s3://crabby-images/73a8b/73a8b57f0648d7ebc5c433bb8428fd87dc809c4f" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
百度语音识别 REST API文档
查看文档可知:采样率:8000/16000 仅支持单通道
在ffmpeg里对应的设置方式分别是:
-ar rate 设置采样率
-ac channels 设置声道数
修改converter.sh文件,修改为下图所示
data:image/s3,"s3://crabby-images/14e42/14e427eba70814707db06ab1ce83d00796438ace" alt="微信小程序 语音识别怎么做(附小程序+服务器源"
修改后的converter.sh文件