2.12 流畅全双工交互配置

## 流畅全双工交互配置

<div style="display: flex; align-items: flex-start; gap: 16px; padding: 16px; background: #fff5f6; border-radius: 5px; border-left: 4px solid #e83e8c; box-shadow: 0 4px 12px rgba(255, 215, 0, 0.08); margin-bottom: 16px; transition: transform 0.2s ease, box-shadow 0.2s ease;">
  <div>
    <div style="font-weight: 600; margin-bottom: 4px;">温馨提示</div>
    <div style="font-size: 14px; line-height: 1.5;">本文档说明的功能支持链路为：极速超拟人交互链路</div>
  </div>
</div>

语音活动检测 (Voice Activity Detection，VAD) 能区分音频中的人声和背景噪声，判断交互人何时在与设备说话。在全双工交互体验中，VAD的准确性是保证人机对话过程不会互相打断的重要能力。

AIUI全新升级全双工交互，三层VAD能力，让连续对话也能自然流畅，无惧干扰与打断。

- **语音VAD**
语音VAD的目的是收集到有效人声，过滤无效音频。通过声学特征分析相关技术手段，在符合vad阈值条件下可过滤环境噪音，降低误触发概率。【`注意`：语音vad不能替代前端声学降噪回消处理，收到的人声音频仍旧伴有噪音，为提高识别准确率，建议对接端侧声学降噪能力】。
语音VAD在连续收到非人声信号后，只会等待固定时长【即语音vad尾端点时长设置】，超过等待时限停止收音。系统默认开启语音VAD。

- **动态判停**
在面对人声停顿和附和时，语音VAD通过人声判定开启收音起止点、固定等待时长这个特性，就会出现设备回复“抢话”现象。人在表达过程中天然存在思考停顿，停顿时间超时会出现提前截断拾音的现象。用户在倾听回应时，有下意识的附和发声，比如简单附和“嗯”“对”，也会被语音VAD判定为新的人声交互请求。开启动态判停功能，系统将根据说话人的语义来动态判定是否收音，降低抢话频率

- **智能聆听**
人声干扰是比其他环境音更复杂的干扰。用户是否在和设备说话、多人同时发声该如何响应，这一直是语音交互场景难以解决的问题。全新的AIUI全双工交互将人声分为人机对话与人人对话，开启智能聆听功能，可以大幅降低人人对话场景对交互系统的误触。