vLLM
业务组件 将与第三方服务集成的提供商专属组件归为一组,供 SkillFlaw 使用。
本页介绍 vLLM 业务组件中的可用组件。
有关 vLLM 组件所用 vLLM 特性和功能的更多信息,请参阅 vLLM 文档。
vLLM 文本生成
vLLM 组件通过兼容 OpenAI 的 API 使用 vLLM 模型 生成文本。
vLLM 是一个快速且易于使用的 LLM 推理与服务库。它提供高吞吐量服务能力,并采用高效 attention 和 PagedAttention,非常适合自托管模型部署。
该组件会连接到本地或远程运行的 vLLM 服务器,并使用兼容 OpenAI 的 API 端点生成文本响应。
它既可以输出 Model Response(Message),也可以输出 Language Model(LanguageModel)。
当你希望将 vLLM 模型用作其他由 LLM 驱动组件的 LLM 时,请使用 Language Model 输出,例如 Agent 或 Smart Function 组件。
更多信息请参阅语言模型组件。
vLLM 文本生成参数
有些参数在可视化编辑器中默认处于隐藏状态。 你可以通过组件标题栏菜单中的 控件 来修改全部参数。
| Name | Type | Description |
|---|---|---|
| api_key | SecretString | 输入参数。用于 vLLM 模型的 API 密钥(对本地服务器可选)。 |
| model_name | String | 输入参数。要使用的 vLLM 模型名称(例如 'ibm-granite/granite-3.3-8b-instruct')。 |
| api_base | String | 输入参数。vLLM API 服务器的基础 URL。对于本地 vLLM 服务器,默认值为 http://localhost:8000/v1。 |
| temperature | Float | 输入参数。控制输出的随机性。范围:[0.0, 1.0]。默认值:0.1。 |
| max_tokens | Integer | 输入参数。要生成的最大 token 数。设为 0 表示不限制 token。 |
| seed | Integer | 输入参数。该随机种子控制作业结果的可复现性。默认值:1。 |
| max_retries | Integer | 输入参数。生成时的最大重试次数。默认值:5。 |
| timeout | Integer | 输入参数。请求 vLLM 文本生成 API 的超时时间。默认值:700。 |
| model_kwargs | Dict | 输入参数。传递给模型的附加关键字参数。 |
| json_mode | Boolean | 输入参数。如果为 true,则无论是否传入 schema 都会输出 JSON。 |
配置 vLLM
要使用 vLLM 组件,你需要先运行一个 vLLM 服务器。以下是基本步骤:
- 安装 vLLM:
pip install vllm - 启动 vLLM 服务器:
_10python -m vllm.entrypoints.openai.api_server --model <model_name> --port 8000
- 配置组件:将
api_base设置为你的 vLLM 服务器 URL(例如http://localhost:8000/v1)
如需更详细的设置说明,请参阅 vLLM 文档。