MULTIMODAL WORKSPACE

把零散素材汇成一条判断链，快速得到结论、证据和下一步动作。

支持模态文 / 图 / 音统一处理

工作流提取 → 理解直接出结果

本次目标摘要速览可随时切换

输出结构结论 / 证据统一回看

新手引导

建议先进入内容分析，完成一次任务后再回到任务记录复核证据。

输入工作区

定义分析目标

目标模板

分析目标

上传文图音素材

拖拽到这里，或直接选择文件

支持文档、图片、音频文件上传，未开始分析前支持多次追加文件和删除文件。

上传文图音素材

补充上下文

同主题素材放在一轮里，结果会更集中。开始上传后，这里会显示上传队列与取消进度。

最近任务0等待载入历史任务

AI 模式任务0最近记录中的 AI 任务数

规则模式任务0最近记录中的规则任务数

当前详情未选择点击左侧任务查看详情

任务列表

后台任务

运行中的分析会显示进度；完成后可在此查看并打开结果。

第 1 / 1 页

任务详情

AI 配置

直接切换提供商、地址和模型。

AI 理解模式

提供商

API 地址

模型

API Key

正在读取 AI 运行配置...

OCR 参数配置

配置 OCR 服务的请求地址、语言和分割参数。

OCR 开关

关闭后不会调用 OCR，文本需要依赖手工补充或其它流程。

服务地址

服务延迟和可达性会影响识别成功率与总耗时。

语言

传给 OCR 服务的 language 参数。

引擎

选择 OCR 引擎；Auto 会根据图片特征做路由。

psm (可选)

留空则使用服务默认值（如果服务支持）。

正在读取 OCR 运行配置...

ASR 参数配置

动态调整模型、VAD、解码和分片参数。

ASR 开关

关闭后不会调用 ASR，音频仅能依赖手工补充文本。

服务地址

服务延迟和可达性会直接影响总耗时与成功率。

provider

当前推荐使用 faster-whisper，改错会导致转写失败。

模型

模型越大，准确率通常更高，但 CPU/内存占用和耗时也更高。

语言

固定语言可减少误判并略提速；auto 更灵活但可能更慢。

VAD

开启会先做语音活动检测，通常能降耗时和噪声误识别。

beam_size (1-16)

越大越可能提升准确率，但解码更慢。

best_of (1-16)

候选越多越稳，但会增加推理时间。

temperature (0-1)

低温更稳定，过高可能更“发散”并影响一致性。

condition_on_previous_text

开启有助于上下文连贯，关闭可减少前文误传播。

no_speech_threshold (0-1)

阈值越高越容易判定“无语音”，可降噪但可能漏识别。

自动分片

大音频建议开启，能降低超时风险并提升稳定性。

chunk_threshold_sec (>=10)

超过该时长才切片，过小会带来额外切片开销。

chunk_duration_sec (>=10)

单片越短越稳但切片更多；越长上下文更完整但耗时更高。

chunk_overlap_sec

重叠可减少断句丢词，过大则会重复计算。

chunk_max_parallel (1-8)

并行越高吞吐越高，但 CPU/内存占用也会明显上升。

callback_base_url（ASR 回调地址基址）

用于拼接回调地址：{callback_base_url}/cl/api/asr-callback/{token}

callback_timeout_sec (ASR 回调超时)

仅对 ASR 异步回调路径生效（callback_url 非空时）。

callback_retry_backoff_sec (回调初始退避)

回调失败后按尝试次数倍增退避间隔。

callback_max_retries (回调最大重试次数)

包含首次尝试在内的最大尝试次数。

正在读取 ASR 运行配置...

使用说明