URL
URL 组件用于抓取一个或多个 URL 的内容,对抓取结果进行处理,并以多种格式返回。 它支持按设定深度递归跟随链接,也支持输出纯文本或原始 HTML。
URL 参数
有些参数在可视化编辑器中默认处于隐藏状态。 你可以通过组件标题栏菜单中的 控件 来修改全部参数。
以下是部分常用参数:
| Name | Display Name | Info |
|---|---|---|
| urls | URLs | 输入参数。要递归抓取的一个或多个 URL。在可视化编辑器中,点击 Add URL 可以添加多个 URL。 |
| max_depth | Depth | 输入参数。控制链接遍历深度,也就是距离初始页面多少次“点击”。深度为 1 表示只抓取给定 URL 的第一页;深度为 2 表示抓取第一页以及从第一页直接链接到的页面,然后停止。该参数只控制链接跳转深度,不限制 URL 路径段数量,也不限制域名结构本身。 |
| prevent_outside | Prevent Outside | 输入参数。启用后,只抓取与根 URL 处于同一域名下的页面。即使抓取到的页面中包含外站链接,也不会继续访问这些站点。 |
| use_async | Use Async | 输入参数。启用后使用异步加载,速度通常会明显更快,但也可能占用更多系统资源。 |
| format | Output Format | 输入参数。设置输出格式为 Text 或 HTML。默认值为 Text。更多说明请参阅URL 输出。 |
| timeout | Timeout | 输入参数。请求超时时间,单位为秒。 |
| headers | Headers | 输入参数。需要时发送的请求头,例如用于认证或其他自定义需求。 |
除此之外,组件还提供用于错误处理和编码控制的额外输入参数。
URL 输出
URL 组件有两层输出控制:
-
Output Format:决定从抓取到的页面中提取什么内容:
- Text(默认):只提取抓取页面 HTML 中的纯文本
- HTML:提取抓取页面的完整原始 HTML
-
Output data type:在组件输出字段(靠近输出端口)中,还可以进一步选择传递给其他组件时的数据结构:
如果把 URL 组件作为普通组件使用,那么它后面必须连接一个能够接收所选输出类型(DataFrame 或 Message)的组件。
你既可以直接连接兼容组件,也可以先用 Type Convert 组件 将输出转换成其他类型,再传给后续组件。
像 Type Convert 这样的处理型组件和 URL 组件搭配时尤其有用,因为 URL 抓取结果通常包含大量数据。 例如,如果你只想把其中某些字段继续传给后续组件,就可以先用 Parser 组件 从抓取结果中提取这些字段,再继续传递。
如果 URL 组件在 Tool Mode 下与 Agent 组件配合使用,则可以直接连接到 Agent 的 Tools 端口,而不需要先转换数据。
Agent 会根据用户问题决定是否调用 URL 组件,并且它可以直接处理该组件输出的 DataFrame 或 Message。