vLLM

业务组件 将与第三方服务集成的提供商专属组件归为一组，供 SkillFlaw 使用。

本页介绍 vLLM 业务组件中的可用组件。

有关 vLLM 组件所用 vLLM 特性和功能的更多信息，请参阅 vLLM 文档。

vLLM 文本生成

vLLM 组件通过兼容 OpenAI 的 API 使用 vLLM 模型生成文本。

vLLM 是一个快速且易于使用的 LLM 推理与服务库。它提供高吞吐量服务能力，并采用高效 attention 和 PagedAttention，非常适合自托管模型部署。

该组件会连接到本地或远程运行的 vLLM 服务器，并使用兼容 OpenAI 的 API 端点生成文本响应。

它既可以输出 Model Response（Message），也可以输出 Language Model（LanguageModel）。

当你希望将 vLLM 模型用作其他由 LLM 驱动组件的 LLM 时，请使用 Language Model 输出，例如 Agent 或 Smart Function 组件。

更多信息请参阅语言模型组件。

有些参数在可视化编辑器中默认处于隐藏状态。你可以通过组件标题栏菜单中的控件来修改全部参数。

Name	Type	Description
api_key	SecretString	输入参数。用于 vLLM 模型的 API 密钥（对本地服务器可选）。
model_name	String	输入参数。要使用的 vLLM 模型名称（例如 `'ibm-granite/granite-3.3-8b-instruct'`）。
api_base	String	输入参数。vLLM API 服务器的基础 URL。对于本地 vLLM 服务器，默认值为 http://localhost:8000/v1。
temperature	Float	输入参数。控制输出的随机性。范围：`[0.0, 1.0]`。默认值：0.1。
max_tokens	Integer	输入参数。要生成的最大 token 数。设为 0 表示不限制 token。
seed	Integer	输入参数。该随机种子控制作业结果的可复现性。默认值：1。
max_retries	Integer	输入参数。生成时的最大重试次数。默认值：5。
timeout	Integer	输入参数。请求 vLLM 文本生成 API 的超时时间。默认值：700。
model_kwargs	Dict	输入参数。传递给模型的附加关键字参数。
json_mode	Boolean	输入参数。如果为 `true`，则无论是否传入 schema 都会输出 JSON。

要使用 vLLM 组件，你需要先运行一个 vLLM 服务器。以下是基本步骤：

安装 vLLM：pip install vllm
启动 vLLM 服务器：
_10python -m vllm.entrypoints.openai.api_server --model <model_name> --port 8000
配置组件：将 api_base 设置为你的 vLLM 服务器 URL（例如 http://localhost:8000/v1）

如需更详细的设置说明，请参阅 vLLM 文档。