读取文件
在 SkillFlaw 1.7.0 中,这个组件从 File 更名为 Read File。
Read File 组件用于加载并解析文件,把内容转换成 Data、DataFrame 或 Message 对象。
它支持多种文件类型,也提供并行处理与错误处理能力。
当前版本中,这个组件不再公开提供基于 Docling 的本地高级解析;如果你需要 Docling 转换、DoclingDocument 输出或 Docling-only 文件格式,请改用 Docling 业务组件。
你既可以在可视化编辑器中为 Read File 添 加文件,也可以在运行时传入文件,并且支持一次上传多个文件。 有关文件上传与文件型流程的更多说明,请参阅文件管理与创建可摄取文件的聊天机器人。
Read File 组件既可以读取 SkillFlaw 托管文件存储中的文件,也支持 AWS S3 与 Google Drive。 更多说明请参阅配置文件存储。
文件类型与大小限制
默认最大文件大小为 1024 MB。
如需调整,请修改环境变量 SKILLFLAW_MAX_FILE_SIZE_UPLOAD。
支持的文件类型
以下文件类型可以由 Read File 组件读取。 如果你想一次加载多个文件,可以使用归档/压缩格式,或改用 Directory 组件 读取某个目录中的所有文件。
.bz2.csv.docx.gz.htm.html.json.js.md.mdx.pdf.py.sh.sql.tar.tgz.ts.tsx.txt.xml.yaml.yml.zip
如果你需要加载不受支持的文件类型,就必须改用支持该类型的其他组件,或在上传前先把文件转换成受支持格式。
图片和其他 Docling-only 格式在当前版本中不再由 Read File 解析;请改走 Docling 业务组件 工作流。
图片处理请参阅上传图片。
视频处理请参阅 Twelve Labs 与 YouTube 业务组件。
文件参数
有些参数在可视化编辑器中默认处于隐藏状态。 你可以通过组件标题栏菜单中的 控件 来修改全部参数。
| Name | Display Name | Info |
|---|---|---|
| path | Files | 输入参数。要加载的文件路径,可为本地文件或SkillFlaw 文件管理中的文件;支持单文件与归档包。 |
| file_path | Server File Path | 输入参数。带 file_path 属性的 Data 对象,或包含文件路径的 Message 对象;路径指向 SkillFlaw 文件管理中的文件。该参数优先于 Files(path),但支持的文件类型一致。 |
| separator | Separator | 输入参数。多个输出合并为 Message 时使用的分隔符。 |
| silent_errors | Silent Errors | 输入参数。若为 true,组件内部错误不会抛出异常。默认关闭(false)。 |
| delete_server_file_after_processing | Delete Server File After Processing | 输入参数。若为 true(默认),处理结束后会删除 Server File Path(file_path)指向的服务器文件。 |
| ignore_unsupported_extensions | Ignore Unsupported Extensions | 输入参数。启用(true)时,允许传入不受支持的扩展名,但不会处理这些文件;关闭(false)时,传入不支持的文件类型可能直接报错。默认值为 true。 |
| ignore_unspecified_files | Ignore Unspecified Files | 输入参数。若为 true,会忽略没有 file_path 属性的 Data;若为 false(默认),在未指定文件时直接报错。 |
| concurrency_multithreading | Processing Concurrency | 输入参数。上传多个文件时可并发处理的文件数,默认是 1;大于 1 时,对 2 个及以上文件启用并行处理。 |
高级解析
Read File 的本地高级解析能力已在当前 SkillFlaw 版本中退场。
请将 Read File 用于常规文本与结构化文件加载;当你需要以下能力时,请改用 Docling 业务组件:
- 基于 Docling 的文档转换或提取
- 供后续切分 / 导出的
DoclingDocument输出 - 图片解析或其他 Docling-only 文件格式
- 通过你自己的 Docling Serve 实例进行远程处理
如果你把 Docling-only 文件格式传给 Read File,组件会直接报错,并提示改走 Docling 工作流。
文件输出
Read File 的输出取决于加载的文件数量与所选文件类型。 如果组件支持多种输出类型,可在输出端口附近切换。
- 未选择文件
- 单文件
- 多文件
如果运行 Read File 时没有选中文件,则会直接报错;若启用了 Silent Errors,则不会产生输出。
如果只上传了一个受支持文件,可选输出如下:
-
Structured Content:仅对
.csv、.xlsx、.parquet与.json可用。 -
Raw Content:一个包含文件原始文本内容的
Message -
File Path:一个包含文件在 SkillFlaw 文件管理中路径的
Message
如果你上传多个文件,组件会输出 Files,即一个 DataFrame,其中包含所有已选文件的内容与元数据。