v1.8.0: Audio 代码重构与低功耗优化 (#943)

* Reconstruct Audio Code * Remove old IoT implementation * Add MQTT-UDP documentation * OTA升级失败时，可以继续使用
2025-07-19 22:45:22 +08:00
parent 0621578f55
commit 3c71558a5f
173 changed files with 2099 additions and 3265 deletions
--- a/docs/mcp-protocol.md
+++ b/docs/mcp-protocol.md
@@ -42,7 +42,7 @@ MCP 的交互主要围绕客户端（后台 API）发现和调用设备上的“

    - **时机：** 设备启动并成功连接到后台 API 后。
    - **发送方：** 设备。
-    - **消息：** 设备发送基础协议的 "hello" 消息给后台 API，消息中包含设备支持的能力列表，例如通过 `CONFIG_IOT_PROTOCOL_MCP` 配置来表明支持 MCP 协议 (`"mcp": true`)。
+    - **消息：** 设备发送基础协议的 "hello" 消息给后台 API，消息中包含设备支持的能力列表，例如通过支持 MCP 协议 (`"mcp": true`)。
    - **示例 (非 MCP 负载，而是基础协议消息):**
      ```json
      {
--- a/docs/mqtt-udp.md
+++ b/docs/mqtt-udp.md
@@ -0,0 +1,393 @@
+# MQTT + UDP 混合通信协议文档
+
+基于代码实现整理的 MQTT + UDP 混合通信协议文档，概述设备端与服务器之间如何通过 MQTT 进行控制消息传输，通过 UDP 进行音频数据传输的交互方式。
+
+---
+
+## 1. 协议概览
+
+本协议采用混合传输方式：
+- **MQTT**：用于控制消息、状态同步、JSON 数据交换
+- **UDP**：用于实时音频数据传输，支持加密
+
+### 1.1 协议特点
+
+- **双通道设计**：控制与数据分离，确保实时性
+- **加密传输**：UDP 音频数据使用 AES-CTR 加密
+- **序列号保护**：防止数据包重放和乱序
+- **自动重连**：MQTT 连接断开时自动重连
+
+---
+
+## 2. 总体流程概览
+
+```mermaid
+sequenceDiagram
+    participant Device as ESP32 设备
+    participant MQTT as MQTT 服务器
+    participant UDP as UDP 服务器
+
+    Note over Device, UDP: 1. 建立 MQTT 连接
+    Device->>MQTT: MQTT Connect
+    MQTT->>Device: Connected
+
+    Note over Device, UDP: 2. 请求音频通道
+    Device->>MQTT: Hello Message (type: "hello", transport: "udp")
+    MQTT->>Device: Hello Response (UDP 连接信息 + 加密密钥)
+
+    Note over Device, UDP: 3. 建立 UDP 连接
+    Device->>UDP: UDP Connect
+    UDP->>Device: Connected
+
+    Note over Device, UDP: 4. 音频数据传输
+    loop 音频流传输
+        Device->>UDP: 加密音频数据 (Opus)
+        UDP->>Device: 加密音频数据 (Opus)
+    end
+
+    Note over Device, UDP: 5. 控制消息交换
+    par 控制消息
+        Device->>MQTT: Listen/TTS/MCP 消息
+        MQTT->>Device: STT/TTS/MCP 响应
+    end
+
+    Note over Device, UDP: 6. 关闭连接
+    Device->>MQTT: Goodbye Message
+    Device->>UDP: Disconnect
+```
+
+---
+
+## 3. MQTT 控制通道
+
+### 3.1 连接建立
+
+设备通过 MQTT 连接到服务器，连接参数包括：
+- **Endpoint**：MQTT 服务器地址和端口
+- **Client ID**：设备唯一标识符
+- **Username/Password**：认证凭据
+- **Keep Alive**：心跳间隔（默认240秒）
+
+### 3.2 Hello 消息交换
+
+#### 3.2.1 设备端发送 Hello
+
+```json
+{
+  "type": "hello",
+  "version": 3,
+  "transport": "udp",
+  "features": {
+    "mcp": true
+  },
+  "audio_params": {
+    "format": "opus",
+    "sample_rate": 16000,
+    "channels": 1,
+    "frame_duration": 60
+  }
+}
+```
+
+#### 3.2.2 服务器响应 Hello
+
+```json
+{
+  "type": "hello",
+  "transport": "udp",
+  "session_id": "xxx",
+  "audio_params": {
+    "format": "opus",
+    "sample_rate": 24000,
+    "channels": 1,
+    "frame_duration": 60
+  },
+  "udp": {
+    "server": "192.168.1.100",
+    "port": 8888,
+    "key": "0123456789ABCDEF0123456789ABCDEF",
+    "nonce": "0123456789ABCDEF0123456789ABCDEF"
+  }
+}
+```
+
+**字段说明：**
+- `udp.server`：UDP 服务器地址
+- `udp.port`：UDP 服务器端口
+- `udp.key`：AES 加密密钥（十六进制字符串）
+- `udp.nonce`：AES 加密随机数（十六进制字符串）
+
+### 3.3 JSON 消息类型
+
+#### 3.3.1 设备端→服务器
+
+1. **Listen 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "listen",
+     "state": "start",
+     "mode": "manual"
+   }
+   ```
+
+2. **Abort 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "abort",
+     "reason": "wake_word_detected"
+   }
+   ```
+
+3. **MCP 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "mcp",
+     "payload": {
+       "jsonrpc": "2.0",
+       "id": 1,
+       "result": {...}
+     }
+   }
+   ```
+
+4. **Goodbye 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "goodbye"
+   }
+   ```
+
+#### 3.3.2 服务器→设备端
+
+支持的消息类型与 WebSocket 协议一致，包括：
+- **STT**：语音识别结果
+- **TTS**：语音合成控制
+- **LLM**：情感表达控制
+- **MCP**：物联网控制
+- **System**：系统控制
+- **Custom**：自定义消息（可选）
+
+---
+
+## 4. UDP 音频通道
+
+### 4.1 连接建立
+
+设备收到 MQTT Hello 响应后，使用其中的 UDP 连接信息建立音频通道：
+1. 解析 UDP 服务器地址和端口
+2. 解析加密密钥和随机数
+3. 初始化 AES-CTR 加密上下文
+4. 建立 UDP 连接
+
+### 4.2 音频数据格式
+
+#### 4.2.1 加密音频包结构
+
+```
+|type 1byte|flags 1byte|payload_len 2bytes|ssrc 4bytes|timestamp 4bytes|sequence 4bytes|
+|payload payload_len bytes|
+```
+
+**字段说明：**
+- `type`：数据包类型，固定为 0x01
+- `flags`：标志位，当前未使用
+- `payload_len`：负载长度（网络字节序）
+- `ssrc`：同步源标识符
+- `timestamp`：时间戳（网络字节序）
+- `sequence`：序列号（网络字节序）
+- `payload`：加密的 Opus 音频数据
+
+#### 4.2.2 加密算法
+
+使用 **AES-CTR** 模式加密：
+- **密钥**：128位，由服务器提供
+- **随机数**：128位，由服务器提供
+- **计数器**：包含时间戳和序列号信息
+
+### 4.3 序列号管理
+
+- **发送端**：`local_sequence_` 单调递增
+- **接收端**：`remote_sequence_` 验证连续性
+- **防重放**：拒绝序列号小于期望值的数据包
+- **容错处理**：允许轻微的序列号跳跃，记录警告
+
+### 4.4 错误处理
+
+1. **解密失败**：记录错误，丢弃数据包
+2. **序列号异常**：记录警告，但仍处理数据包
+3. **数据包格式错误**：记录错误，丢弃数据包
+
+---
+
+## 5. 状态管理
+
+### 5.1 连接状态
+
+```mermaid
+stateDiagram
+    direction TB
+    [*] --> Disconnected
+    Disconnected --> MqttConnecting: StartMqttClient()
+    MqttConnecting --> MqttConnected: MQTT Connected
+    MqttConnecting --> Disconnected: Connect Failed
+    MqttConnected --> RequestingChannel: OpenAudioChannel()
+    RequestingChannel --> ChannelOpened: Hello Exchange Success
+    RequestingChannel --> MqttConnected: Hello Timeout/Failed
+    ChannelOpened --> UdpConnected: UDP Connect Success
+    UdpConnected --> AudioStreaming: Start Audio Transfer
+    AudioStreaming --> UdpConnected: Stop Audio Transfer
+    UdpConnected --> ChannelOpened: UDP Disconnect
+    ChannelOpened --> MqttConnected: CloseAudioChannel()
+    MqttConnected --> Disconnected: MQTT Disconnect
+```
+
+### 5.2 状态检查
+
+设备通过以下条件判断音频通道是否可用：
+```cpp
+bool IsAudioChannelOpened() const {
+    return udp_ != nullptr && !error_occurred_ && !IsTimeout();
+}
+```
+
+---
+
+## 6. 配置参数
+
+### 6.1 MQTT 配置
+
+从设置中读取的配置项：
+- `endpoint`：MQTT 服务器地址
+- `client_id`：客户端标识符
+- `username`：用户名
+- `password`：密码
+- `keepalive`：心跳间隔（默认240秒）
+- `publish_topic`：发布主题
+
+### 6.2 音频参数
+
+- **格式**：Opus
+- **采样率**：16000 Hz（设备端）/ 24000 Hz（服务器端）
+- **声道数**：1（单声道）
+- **帧时长**：60ms
+
+---
+
+## 7. 错误处理与重连
+
+### 7.1 MQTT 重连机制
+
+- 连接失败时自动重试
+- 支持错误上报控制
+- 断线时触发清理流程
+
+### 7.2 UDP 连接管理
+
+- 连接失败时不自动重试
+- 依赖 MQTT 通道重新协商
+- 支持连接状态查询
+
+### 7.3 超时处理
+
+基类 `Protocol` 提供超时检测：
+- 默认超时时间：120 秒
+- 基于最后接收时间计算
+- 超时时自动标记为不可用
+
+---
+
+## 8. 安全考虑
+
+### 8.1 传输加密
+
+- **MQTT**：支持 TLS/SSL 加密（端口8883）
+- **UDP**：使用 AES-CTR 加密音频数据
+
+### 8.2 认证机制
+
+- **MQTT**：用户名/密码认证
+- **UDP**：通过 MQTT 通道分发密钥
+
+### 8.3 防重放攻击
+
+- 序列号单调递增
+- 拒绝过期数据包
+- 时间戳验证
+
+---
+
+## 9. 性能优化
+
+### 9.1 并发控制
+
+使用互斥锁保护 UDP 连接：
+```cpp
+std::lock_guard<std::mutex> lock(channel_mutex_);
+```
+
+### 9.2 内存管理
+
+- 动态创建/销毁网络对象
+- 智能指针管理音频数据包
+- 及时释放加密上下文
+
+### 9.3 网络优化
+
+- UDP 连接复用
+- 数据包大小优化
+- 序列号连续性检查
+
+---
+
+## 10. 与 WebSocket 协议的比较
+
+| 特性 | MQTT + UDP | WebSocket |
+|------|------------|-----------|
+| 控制通道 | MQTT | WebSocket |
+| 音频通道 | UDP (加密) | WebSocket (二进制) |
+| 实时性 | 高 (UDP) | 中等 |
+| 可靠性 | 中等 | 高 |
+| 复杂度 | 高 | 低 |
+| 加密 | AES-CTR | TLS |
+| 防火墙友好度 | 低 | 高 |
+
+---
+
+## 11. 部署建议
+
+### 11.1 网络环境
+
+- 确保 UDP 端口可达
+- 配置防火墙规则
+- 考虑 NAT 穿透
+
+### 11.2 服务器配置
+
+- MQTT Broker 配置
+- UDP 服务器部署
+- 密钥管理系统
+
+### 11.3 监控指标
+
+- 连接成功率
+- 音频传输延迟
+- 数据包丢失率
+- 解密失败率
+
+---
+
+## 12. 总结
+
+MQTT + UDP 混合协议通过以下设计实现高效的音视频通信：
+
+- **分离式架构**：控制与数据通道分离，各司其职
+- **加密保护**：AES-CTR 确保音频数据安全传输
+- **序列化管理**：防止重放攻击和数据乱序
+- **自动恢复**：支持连接断开后的自动重连
+- **性能优化**：UDP 传输保证音频数据的实时性
+
+该协议适用于对实时性要求较高的语音交互场景，但需要在网络复杂度和传输性能之间做出权衡。 
--- a/docs/websocket.md
+++ b/docs/websocket.md
@@ -84,7 +84,7 @@
 在建立 WebSocket 连接时，代码示例中设置了以下请求头：

 - `Authorization`: 用于存放访问令牌，形如 `"Bearer <token>"`  
- `Protocol-Version`: 固定示例中为 `"1"`，与 hello 消息体内的 `version` 字段保持一致  
+- `Protocol-Version`: 协议版本号，与 hello 消息体内的 `version` 字段保持一致  
 - `Device-Id`: 设备物理网卡 MAC 地址
 - `Client-Id`: 软件生成的 UUID（擦除 NVS 或重新烧录完整固件会重置）

@@ -92,11 +92,44 @@

 ---

-## 3. JSON 消息结构
+## 3. 二进制协议版本
+
+设备支持多种二进制协议版本，通过配置中的 `version` 字段指定：
+
+### 3.1 版本1（默认）
+直接发送 Opus 音频数据，无额外元数据。Websocket 协议会区分 text 与 binary。
+
+### 3.2 版本2
+使用 `BinaryProtocol2` 结构：
+```c
+struct BinaryProtocol2 {
+    uint16_t version;        // 协议版本
+    uint16_t type;           // 消息类型 (0: OPUS, 1: JSON)
+    uint32_t reserved;       // 保留字段
+    uint32_t timestamp;      // 时间戳（毫秒，用于服务器端AEC）
+    uint32_t payload_size;   // 负载大小（字节）
+    uint8_t payload[];       // 负载数据
+} __attribute__((packed));
+```
+
+### 3.3 版本3
+使用 `BinaryProtocol3` 结构：
+```c
+struct BinaryProtocol3 {
+    uint8_t type;            // 消息类型
+    uint8_t reserved;        // 保留字段
+    uint16_t payload_size;   // 负载大小
+    uint8_t payload[];       // 负载数据
+} __attribute__((packed));
+```
+
+---
+
+## 4. JSON 消息结构

 WebSocket 文本帧以 JSON 方式传输，以下为常见的 `"type"` 字段及其对应业务逻辑。若消息里包含未列出的字段，可能为可选或特定实现细节。

-### 3.1 设备端→服务器
+### 4.1 设备端→服务器

 1. **Hello**  
   - 连接成功后，由设备端发送，告知服务器基本参数。  
@@ -183,7 +216,7 @@ WebSocket 文本帧以 JSON 方式传输，以下为常见的 `"type"` 字段及

 ---

-### 3.2 服务器→设备端
+### 4.2 服务器→设备端

 1. **Hello**  
   - 服务器端返回的握手确认消息。  
@@ -227,17 +260,43 @@ WebSocket 文本帧以 JSON 方式传输，以下为常见的 `"type"` 字段及
     }
     ```

-6. **音频数据：二进制帧**  
+6. **System**
+   - 系统控制命令，常用于远程升级更新。
+   - 例：
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "system",
+       "command": "reboot"
+     }
+     ```
+   - 支持的命令：
+     - `"reboot"`：重启设备
+
+7. **Custom**（可选）
+   - 自定义消息，当 `CONFIG_RECEIVE_CUSTOM_MESSAGE` 启用时支持。
+   - 例：
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "custom",
+       "payload": {
+         "message": "自定义内容"
+       }
+     }
+     ```
+
+8. **音频数据：二进制帧**  
   - 当服务器发送音频二进制帧（Opus 编码）时，设备端解码并播放。  
   - 若设备端正在处于 "listening" （录音）状态，收到的音频帧会被忽略或清空以防冲突。

 ---

-## 4. 音频编解码
+## 5. 音频编解码

 1. **设备端发送录音数据**  
   - 音频输入经过可能的回声消除、降噪或音量增益后，通过 Opus 编码打包为二进制帧发送给服务器。  
-   - 如果设备端每次编码生成的二进制帧大小为 N 字节，则会通过 WebSocket 的 **binary** 消息发送这块数据。
+   - 根据协议版本，可能直接发送 Opus 数据（版本1）或使用带元数据的二进制协议（版本2/3）。

 2. **设备端播放收到的音频**  
   - 收到服务器的二进制帧时，同样认定是 Opus 数据。  
@@ -246,7 +305,7 @@ WebSocket 文本帧以 JSON 方式传输，以下为常见的 `"type"` 字段及

 ---

-## 5. 常见状态流转
+## 6. 常见状态流转

 以下为常见设备端关键状态流转，与 WebSocket 消息对应：

@@ -307,7 +366,7 @@ stateDiagram

 ---

-## 6. 错误处理
+## 7. 错误处理

 1. **连接失败**  
   - 如果 `Connect(url)` 返回失败或在等待服务器 "hello" 消息时超时，触发 `on_network_error_()` 回调。设备会提示"无法连接到服务"或类似错误信息。
@@ -319,7 +378,7 @@ stateDiagram

 ---

-## 7. 其它注意事项
+## 8. 其它注意事项

 1. **鉴权**  
   - 设备通过设置 `Authorization: Bearer <token>` 提供鉴权，服务器端需验证是否有效。  
@@ -331,17 +390,23 @@ stateDiagram
 3. **音频负载**  
   - 代码里默认使用 Opus 格式，并设置 `sample_rate = 16000`，单声道。帧时长由 `OPUS_FRAME_DURATION_MS` 控制，一般为 60ms。可根据带宽或性能做适当调整。为了获得更好的音乐播放效果，服务器下行音频可能使用 24000 采样率。

-4. **物联网控制推荐 MCP 协议**  
+4. **协议版本配置**  
+   - 通过设置中的 `version` 字段配置二进制协议版本（1、2 或 3）
+   - 版本1：直接发送 Opus 数据
+   - 版本2：使用带时间戳的二进制协议，适用于服务器端 AEC
+   - 版本3：使用简化的二进制协议
+
+5. **物联网控制推荐 MCP 协议**  
   - 设备与服务器之间的物联网能力发现、状态同步、控制指令等，建议全部通过 MCP 协议（type: "mcp"）实现。原有的 type: "iot" 方案已废弃。
   - MCP 协议可在 WebSocket、MQTT 等多种底层协议上传输，具备更好的扩展性和标准化能力。
   - 详细用法请参考 [MCP 协议文档](./mcp-protocol.md) 及 [MCP 物联网控制用法](./mcp-usage.md)。

-5. **错误或异常 JSON**  
+6. **错误或异常 JSON**  
   - 当 JSON 中缺少必要字段，例如 `{"type": ...}`，设备端会记录错误日志（`ESP_LOGE(TAG, "Missing message type, data: %s", data);`），不会执行任何业务。

 ---

-## 8. 消息示例
+## 9. 消息示例

 下面给出一个典型的双向消息示例（流程简化示意）：

@@ -418,13 +483,13 @@ stateDiagram

 ---

-## 9. 总结
+## 10. 总结

 本协议通过在 WebSocket 上层传输 JSON 文本与二进制音频帧，完成功能包括音频流上传、TTS 音频播放、语音识别与状态管理、MCP 指令下发等。其核心特征：

 - **握手阶段**：发送 `"type":"hello"`，等待服务器返回。  
- **音频通道**：采用 Opus 编码的二进制帧双向传输语音流。  
- **JSON 消息**：使用 `"type"` 为核心字段标识不同业务逻辑，包括 TTS、STT、MCP、WakeWord 等。  
+- **音频通道**：采用 Opus 编码的二进制帧双向传输语音流，支持多种协议版本。  
+- **JSON 消息**：使用 `"type"` 为核心字段标识不同业务逻辑，包括 TTS、STT、MCP、WakeWord、System、Custom 等。  
 - **扩展性**：可根据实际需求在 JSON 消息中添加字段，或在 headers 里进行额外鉴权。

 服务器与设备端需提前约定各类消息的字段含义、时序逻辑以及错误处理规则，方能保证通信顺畅。上述信息可作为基础文档，便于后续对接、开发或扩展。