实时语音 - 𓀚 转了码的刘公子

# Summary **实时语音：** **双向流式模式：** 支持将长音频实时识别成文字，达到“边说话边出文字”的效果，适用于实时语音识别的场景，如实时会议字幕、直播字幕、智能外呼等。 **流式输入模式：** 支持将音频以流式方式送入，语音识别引擎处理完后返回句级的识别结果，适用于智能体对话、IM语音消息转写、语音输入法等场景。级联模式（[[语音识别 ASR]]→LLM→TTS）：即通过ASR将用户输入的语音问题转写成文本，再将转写的文本送入LLM生成对话文本回复，最后将LLM回复文本通过TTS转成语音回复发送出来端到端模式（S2S, Speech 2 Speech）: 实时语音到语音，可提供更加拟人的语音对话交互功能 # Cues # Notes