跳到主要内容

图像生成

Hermes Agent 可以使用 FAL.ai 的 FLUX 2 Pro 模型根据文本提示生成图像,并通过 Clarity Upscaler 自动进行2倍升级以提高质量。

设置

获取 FAL API 密钥

  1. fal.ai 注册
  2. 从你的仪表板生成 API 密钥

配置密钥

# 添加到 ~/.hermes/.env
FAL_KEY=your-fal-api-key-here

安装客户端库

pip install fal-client
信息

当设置了 FAL_KEY 时,图像生成工具会自动可用。无需额外的工具集配置。

工作原理

当你要求 Hermes 生成图像时:

  1. 生成 — 你的提示被发送到 FLUX 2 Pro 模型(fal-ai/flux-2-pro
  2. 升级 — 生成的图像使用 Clarity Upscaler(fal-ai/clarity-upscaler)自动升级2倍
  3. 交付 — 升级后的图像 URL 被返回

如果升级因任何原因失败,原始图像将作为后备返回。

使用方法

只需要求 Hermes 创建图像:

Generate an image of a serene mountain landscape with cherry blossoms
Create a portrait of a wise old owl perched on an ancient tree branch
Make me a futuristic cityscape with flying cars and neon lights

参数

image_generate_tool 接受以下参数:

参数默认值范围描述
prompt(必填)所需图像的文本描述
aspect_ratio"landscape"landscapesquareportrait图像宽高比
num_inference_steps501–100去噪步数(越多=质量越高,速度越慢)
guidance_scale4.50.1–20.0遵循提示的程度
num_images11–4要生成的图像数量
output_format"png"pngjpeg图像文件格式
seed(随机)任意整数用于可重复结果的随机种子

宽高比

该工具使用简化的宽高比名称,映射到 FLUX 2 Pro 图像尺寸:

宽高比映射到适用于
landscapelandscape_16_9壁纸、横幅、场景
squaresquare_hd头像、社交媒体帖子
portraitportrait_16_9人物艺术、手机壁纸
提示

你也可以直接使用原始 FLUX 2 Pro 尺寸预设:square_hdsquareportrait_4_3portrait_16_9landscape_4_3landscape_16_9。还支持最大 2048x2048 的自定义尺寸。

自动升级

每个生成的图像都使用 FAL.ai 的 Clarity Upscaler 自动升级2倍,设置如下:

设置
升级倍数2x
创造力0.35
相似度0.6
引导尺度4
推理步数18
正面提示"masterpiece, best quality, highres" + 你的原始提示
负面提示"(worst quality, low quality, normal quality:2)"

升级器在保持原始构图的同时增强细节和分辨率。如果升级器失败(网络问题、速率限制),会自动返回原始分辨率图像。

示例提示

以下是一些有效的提示可以尝试:

A candid street photo of a woman with a pink bob and bold eyeliner
Modern architecture building with glass facade, sunset lighting
Abstract art with vibrant colors and geometric patterns
Portrait of a wise old owl perched on ancient tree branch
Futuristic cityscape with flying cars and neon lights

调试

启用图像生成的调试日志:

export IMAGE_TOOLS_DEBUG=true

调试日志保存到 ./logs/image_tools_debug_<session_id>.json,包含每个生成请求、参数、时间安排和任何错误的详细信息。

安全设置

图像生成工具默认以禁用安全检查的方式运行(safety_tolerance: 5,最宽松的设置)。这是在代码级别配置的,用户无法调整。

平台交付

生成的图像根据平台不同以不同方式交付:

平台交付方式
CLI图像 URL 作为 markdown ![description](url) 打印——点击在浏览器中打开
Telegram图像作为照片消息发送,提示作为标题
Discord图像嵌入在消息中
Slack消息中的图像 URL(Slack 会展开)
WhatsApp图像作为媒体消息发送
其他平台纯文本中的图像 URL

代理在其响应中使用 MEDIA:<url> 语法,平台适配器将其转换为适当的格式。

限制

  • 需要 FAL API 密钥 — 图像生成会产生 FAL.ai 账户的 API 费用
  • 无图像编辑 — 这是纯文本到图像,不支持修复或 img2img
  • 基于 URL 的交付 — 图像作为临时 FAL.ai URL 返回,而不是保存到本地。URL 通常在数小时后过期
  • 升级增加延迟 — 自动 2x 升级步骤会增加处理时间
  • 每次请求最多4张图像num_images 上限为 4