跳到主要内容

vLLM

业务组件 将与第三方服务集成的提供商专属组件归为一组,供 SkillFlaw 使用。

本页介绍 vLLM 业务组件中的可用组件。

有关 vLLM 组件所用 vLLM 特性和功能的更多信息,请参阅 vLLM 文档

vLLM 文本生成

vLLM 组件通过兼容 OpenAI 的 API 使用 vLLM 模型 生成文本。

vLLM 是一个快速且易于使用的 LLM 推理与服务库。它提供高吞吐量服务能力,并采用高效 attention 和 PagedAttention,非常适合自托管模型部署。

该组件会连接到本地或远程运行的 vLLM 服务器,并使用兼容 OpenAI 的 API 端点生成文本响应。

它既可以输出 Model ResponseMessage),也可以输出 Language ModelLanguageModel)。

当你希望将 vLLM 模型用作其他由 LLM 驱动组件的 LLM 时,请使用 Language Model 输出,例如 AgentSmart Function 组件。

更多信息请参阅语言模型组件

vLLM 文本生成参数

有些参数在可视化编辑器中默认处于隐藏状态。 你可以通过组件标题栏菜单中的 控件 来修改全部参数。

NameTypeDescription
api_keySecretString输入参数。用于 vLLM 模型的 API 密钥(对本地服务器可选)。
model_nameString输入参数。要使用的 vLLM 模型名称(例如 'ibm-granite/granite-3.3-8b-instruct')。
api_baseString输入参数。vLLM API 服务器的基础 URL。对于本地 vLLM 服务器,默认值为 http://localhost:8000/v1。
temperatureFloat输入参数。控制输出的随机性。范围:[0.0, 1.0]。默认值:0.1。
max_tokensInteger输入参数。要生成的最大 token 数。设为 0 表示不限制 token。
seedInteger输入参数。该随机种子控制作业结果的可复现性。默认值:1。
max_retriesInteger输入参数。生成时的最大重试次数。默认值:5。
timeoutInteger输入参数。请求 vLLM 文本生成 API 的超时时间。默认值:700。
model_kwargsDict输入参数。传递给模型的附加关键字参数。
json_modeBoolean输入参数。如果为 true,则无论是否传入 schema 都会输出 JSON。

配置 vLLM

要使用 vLLM 组件,你需要先运行一个 vLLM 服务器。以下是基本步骤:

  1. 安装 vLLMpip install vllm
  2. 启动 vLLM 服务器

    _10
    python -m vllm.entrypoints.openai.api_server --model <model_name> --port 8000

  3. 配置组件:将 api_base 设置为你的 vLLM 服务器 URL(例如 http://localhost:8000/v1

如需更详细的设置说明,请参阅 vLLM 文档

另请参阅