ClickHouse 组件
业务组件 用于按提供商归类那些将第三方服务接入 SkillFlaw 的组件。
本页介绍 ClickHouse 业务组件中的可用组件。
ClickHouse 向量存储
ClickHouse 组件通过 ClickHouse 向量存储实例对 ClickHouse 向量存储进行读写。
关于向量存储实例
由于 SkillFlaw 基于 LangChain,向量存储组件会使用一个 LangChain 向量存储 实例来驱动底层的读写功能。 这些实例具有提供商特定性,并根据组件参数进行配置,例如连接字符串、索引名称和 schema。
在组件代码中,这通常会被实例化为 vector_store,但某些向量存储组件会使用其他名称,例如提供商名称。
有些 LangChain 类不会将所有可选项都暴露为组件参数。 根据提供商不同,这些选项可能使用默认值,或者在 SkillFlaw 支持的情况下通过环境变量进行修改。 有关具体选项,请参阅 LangChain API 参考和向量存储提供商文档。
如果你使用向量存储组件查询向量数据库,它会生成搜索结果,你可以将这些结果作为 Data 对象列表或表格形式的 DataFrame 传递给流程中的下游组件。
如果同时支持这两种类型,你可以在可视化编辑器中、向量存储组件输出端口附近设置输出格式。
如需了解在流程中使用向量数据库的教程,请参阅 创建向量 RAG 聊天机器人。
ClickHouse 参数
你可以查看向量存储组件的参数,以了解它接受哪些输入、支持哪些能力以及如何进行配置。
有些参数在可视化编辑器中默认处于隐藏状态。 你可以通过组件标题栏菜单中的 控件 来修改全部参数。
有些参数是条件参数,只有在你设置了其他参数,或为其他参数选择了特定选项之后才会显示。 在满足所需依赖之前,条件参数可能不会出现在 控件 面板中。
关于可接受的取值和功能说明,请参阅 ClickHouse 文档 或查看组件代码。
| Name | Display Name | Info |
|---|---|---|
| host | hostname | 输入参数。ClickHouse server 主机名。必填。默认:localhost。 |
| port | port | 输入参数。ClickHouse server 端口。必填。默认:8123。 |
| database | database | 输入参数。ClickHouse 数据库名称。必填。 |
| table | Table name | 输入参数。ClickHouse 表名称。必填。 |
| username | Username | 输入参数。用于认证的 ClickHouse 用户名。必填。 |
| password | Password | 输入参数。用于认证的 ClickHouse 密码。必填。 |
| index_type | index_type | 输入参数。索引类型,可选 annoy(默认)或 vector_similarity。 |
| metric | metric | 输入参数。用于计算相似度距离的度量方式。可选项为 angular(默认)、euclidean、manhattan、hamming、dot。 |
| secure | Use HTTPS/TLS | 输入参数。若为 true,则为 ClickHouse server 启用 HTTPS/TLS,并覆盖根据接口或端口参数推断出的值。默认:false。 |
| index_param | Param of the index | 输入参数。索引参数。默认:100,'L2Distance'。 |
| index_query_params | index query params | 输入参数。附加索引查询参数。 |
| search_query | Search Query | 输入参数。相似度搜索的查询字符串。仅在读取时相关。 |
| ingest_data | Ingest Data | 输入参数。要加载到向量存储中的记录。 |
| cache_vector_store | Cache Vector Store | 输入参数。若为 true,组件会将向量存储缓存在内存中以加快读取速度。默认:启用(true)。 |
| embedding | Embedding | 输入参数。要使用的 embedding 模型。 |
| number_of_results | Number of Results | 输入参数。返回的搜索结果数量。默认:4。仅在读取时相关。 |
| score_threshold | Score threshold | 输入参数。相似度分数比较阈值。默认:未设置(无阈值)。仅在读取时相关。 |