**预测输出**是一种可以在已知大部分输出内容的情况下,加速模型响应的新方法。这种方法特别适用于当你只想对文本或代码进行小改动时,比如在重新生成一个代码文件时只做轻微调整。这时你可以通过**prediction 参数**向模型提供你对最终输出的预测,模型就会根据预测来生成结果,从而减少延迟。 **优点** 1. **加速响应**:因为模型会将预测的内容作为一部分输出,只需生成较少的新内容,从而缩短响应时间。 2. **适合大文件**:当对大文件进行小改动时,特别是代码或文档的轻微重构,这种方法可以显著降低延迟。 3. **流式处理**:在使用流式处理时,预测输出的延迟减少效果更明显,可以边生成边输出结果。 4. **灵活的预测位置**:预测文本可以出现在生成响应的任意位置,模型可以使用预测部分从而加快生成。 **缺点** 1. **可能增加成本**:预测的token中未被模型使用的部分仍然会计费。因此,如果模型拒绝了较多的预测内容,会带来更高的费用。 2. **功能限制**:在使用预测输出时,有以下功能不支持: - n 参数不能超过1(不支持生成多项响应)。 - logprobs 不支持(无法返回生成概率)。 - presence_penalty 和 frequency_penalty 不支持大于0的值。 - 不支持音频输入和输出,仅适用于文本。 - 不支持 max_completion_tokens 参数,也不支持函数调用。 1. **适用模型有限**:仅支持 GPT-4o 和 GPT-4o-mini 系列模型,不适用于其他模型。 **适用场景** 预测输出主要用于文档或代码的细微改动,通过提前预测相似文本作为基础,可以让生成过程更快、更流畅。