# Summary
**实时语音:**
**双向流式模式:** 支持将长音频实时识别成文字,达到“边说话边出文字”的效果,适用于实时语音识别的场景,如实时会议字幕、直播字幕、智能外呼等。
**流式输入模式:** 支持将音频以流式方式送入,语音识别引擎处理完后返回句级的识别结果,适用于智能体对话、IM语音消息转写、语音输入法等场景。
级联模式([[ASR]]→LLM→TTS):即通过ASR将用户输入的语音问题转写成文本,再将转写的文本送入LLM生成对话文本回复,最后将LLM回复文本通过TTS转成语音回复发送出来
端到端模式(S2S, Speech 2 Speech): 实时语音到语音,可提供更加拟人的语音对话交互功能
# Cues
# Notes