问：是模型在限制 tokens 长度还是应用在限制？

问：模型支持的TOKEN数量是模型本身的限制还是调用模型的程序限制的呢？

答：模型会有上下文窗口长度限制，AI聊天应用也会有会话长度限制。

举例来说你的模型最大上下文窗口长度限制是 128K，但是通常应用程序不会让你输入的内容到128K，可能输入内容最多16K就不让你输入了，因为这个上下文窗口长度是针对输入和输出加起来的长度，所以要留一些空间给输出。

另外输入内容越长，模型生成的质量会下降，成本也会增加很多，所以应用要限制最大输入的长度。