跳到主要内容

URL

URL 组件用于抓取一个或多个 URL 的内容,对抓取结果进行处理,并以多种格式返回。 它支持按设定深度递归跟随链接,也支持输出纯文本或原始 HTML。

URL 参数

有些参数在可视化编辑器中默认处于隐藏状态。 你可以通过组件标题栏菜单中的 控件 来修改全部参数。

以下是部分常用参数:

NameDisplay NameInfo
urlsURLs输入参数。要递归抓取的一个或多个 URL。在可视化编辑器中,点击 Add URL 可以添加多个 URL。
max_depthDepth输入参数。控制链接遍历深度,也就是距离初始页面多少次“点击”。深度为 1 表示只抓取给定 URL 的第一页;深度为 2 表示抓取第一页以及从第一页直接链接到的页面,然后停止。该参数只控制链接跳转深度,不限制 URL 路径段数量,也不限制域名结构本身。
prevent_outsidePrevent Outside输入参数。启用后,只抓取与根 URL 处于同一域名下的页面。即使抓取到的页面中包含外站链接,也不会继续访问这些站点。
use_asyncUse Async输入参数。启用后使用异步加载,速度通常会明显更快,但也可能占用更多系统资源。
formatOutput Format输入参数。设置输出格式为 TextHTML。默认值为 Text。更多说明请参阅URL 输出
timeoutTimeout输入参数。请求超时时间,单位为秒。
headersHeaders输入参数。需要时发送的请求头,例如用于认证或其他自定义需求。

除此之外,组件还提供用于错误处理和编码控制的额外输入参数。

URL 输出

URL 组件有两层输出控制:

  • Output Format:决定从抓取到的页面中提取什么内容:

    • Text(默认):只提取抓取页面 HTML 中的纯文本
    • HTML:提取抓取页面的完整原始 HTML
  • Output data type:在组件输出字段(靠近输出端口)中,还可以进一步选择传递给其他组件时的数据结构:

    • Extracted Pages:输出一个 DataFrame,将页面内容拆分成多列,例如整页内容(text)以及 urltitle 等元数据
    • Raw Content:输出一个 Message,把所有页面提取到的文本或 HTML 连同元数据一起合并成一个文本块

如果把 URL 组件作为普通组件使用,那么它后面必须连接一个能够接收所选输出类型(DataFrameMessage)的组件。 你既可以直接连接兼容组件,也可以先用 Type Convert 组件 将输出转换成其他类型,再传给后续组件。

Type Convert 这样的处理型组件和 URL 组件搭配时尤其有用,因为 URL 抓取结果通常包含大量数据。 例如,如果你只想把其中某些字段继续传给后续组件,就可以先用 Parser 组件 从抓取结果中提取这些字段,再继续传递。

如果 URL 组件在 Tool Mode 下与 Agent 组件配合使用,则可以直接连接到 AgentTools 端口,而不需要先转换数据。 Agent 会根据用户问题决定是否调用 URL 组件,并且它可以直接处理该组件输出的 DataFrameMessage