跳到主要内容

读取文件

在 SkillFlaw 1.7.0 中,这个组件从 File 更名为 Read File

Read File 组件用于加载并解析文件,把内容转换成 DataDataFrameMessage 对象。 它支持多种文件类型,也提供并行处理与错误处理能力。 当前版本中,这个组件不再公开提供基于 Docling 的本地高级解析;如果你需要 Docling 转换、DoclingDocument 输出或 Docling-only 文件格式,请改用 Docling 业务组件

你既可以在可视化编辑器中为 Read File 添加文件,也可以在运行时传入文件,并且支持一次上传多个文件。 有关文件上传与文件型流程的更多说明,请参阅文件管理创建可摄取文件的聊天机器人

Read File 组件既可以读取 SkillFlaw 托管文件存储中的文件,也支持 AWS S3Google Drive。 更多说明请参阅配置文件存储

文件类型与大小限制

默认最大文件大小为 1024 MB。 如需调整,请修改环境变量 SKILLFLAW_MAX_FILE_SIZE_UPLOAD

支持的文件类型

以下文件类型可以由 Read File 组件读取。 如果你想一次加载多个文件,可以使用归档/压缩格式,或改用 Directory 组件 读取某个目录中的所有文件。

  • .bz2
  • .csv
  • .docx
  • .gz
  • .htm
  • .html
  • .json
  • .js
  • .md
  • .mdx
  • .pdf
  • .py
  • .sh
  • .sql
  • .tar
  • .tgz
  • .ts
  • .tsx
  • .txt
  • .xml
  • .yaml
  • .yml
  • .zip

如果你需要加载不受支持的文件类型,就必须改用支持该类型的其他组件,或在上传前先把文件转换成受支持格式。

图片和其他 Docling-only 格式在当前版本中不再由 Read File 解析;请改走 Docling 业务组件 工作流。

图片处理请参阅上传图片

视频处理请参阅 Twelve LabsYouTube 业务组件

文件参数

有些参数在可视化编辑器中默认处于隐藏状态。 你可以通过组件标题栏菜单中的 控件 来修改全部参数。

NameDisplay NameInfo
pathFiles输入参数。要加载的文件路径,可为本地文件或SkillFlaw 文件管理中的文件;支持单文件与归档包。
file_pathServer File Path输入参数。带 file_path 属性的 Data 对象,或包含文件路径的 Message 对象;路径指向 SkillFlaw 文件管理中的文件。该参数优先于 Filespath),但支持的文件类型一致。
separatorSeparator输入参数。多个输出合并为 Message 时使用的分隔符。
silent_errorsSilent Errors输入参数。若为 true,组件内部错误不会抛出异常。默认关闭(false)。
delete_server_file_after_processingDelete Server File After Processing输入参数。若为 true(默认),处理结束后会删除 Server File Pathfile_path)指向的服务器文件。
ignore_unsupported_extensionsIgnore Unsupported Extensions输入参数。启用(true)时,允许传入不受支持的扩展名,但不会处理这些文件;关闭(false)时,传入不支持的文件类型可能直接报错。默认值为 true
ignore_unspecified_filesIgnore Unspecified Files输入参数。若为 true,会忽略没有 file_path 属性的 Data;若为 false(默认),在未指定文件时直接报错。
concurrency_multithreadingProcessing Concurrency输入参数。上传多个文件时可并发处理的文件数,默认是 1;大于 1 时,对 2 个及以上文件启用并行处理。

高级解析

Read File 的本地高级解析能力已在当前 SkillFlaw 版本中退场。

请将 Read File 用于常规文本与结构化文件加载;当你需要以下能力时,请改用 Docling 业务组件

  • 基于 Docling 的文档转换或提取
  • 供后续切分 / 导出的 DoclingDocument 输出
  • 图片解析或其他 Docling-only 文件格式
  • 通过你自己的 Docling Serve 实例进行远程处理

如果你把 Docling-only 文件格式传给 Read File,组件会直接报错,并提示改走 Docling 工作流。

文件输出

Read File 的输出取决于加载的文件数量与所选文件类型。 如果组件支持多种输出类型,可在输出端口附近切换。

如果运行 Read File 时没有选中文件,则会直接报错;若启用了 Silent Errors,则不会产生输出。