使用说明

正在读取系统状态
MULTIMODAL WORKSPACE

把零散素材汇成一条判断链,快速得到结论、证据和下一步动作。

先定目标

先确定这次想拿到什么结果。

再传素材

文档、截图、录音可一起上传。

最后看结果

结论和证据都进任务记录。

支持模态文 / 图 / 音统一处理
工作流提取 → 理解直接出结果
本次目标摘要速览可随时切换
输出结构结论 / 证据统一回看
新手引导

建议先进入内容分析,完成一次任务后再回到任务记录复核证据。

输入工作区

01
定义分析目标
02
上传文图音素材

拖拽到这里,或直接选择文件

支持文档、图片、音频文件上传,未开始分析前支持多次追加文件和删除文件。

上传文图音素材
03
补充上下文
同主题素材放在一轮里,结果会更集中。开始上传后,这里会显示上传队列与取消进度。
最近任务0等待载入历史任务
AI 模式任务0最近记录中的 AI 任务数
规则模式任务0最近记录中的规则任务数
当前详情未选择点击左侧任务查看详情

任务列表

等待载入任务列表

后台任务

运行中的分析会显示进度;完成后可在此查看并打开结果。

第 1 / 1 页

任务详情

AI 配置

直接切换提供商、地址和模型。

正在读取 AI 运行配置...

OCR 参数配置

配置 OCR 服务的请求地址、语言和分割参数。

关闭后不会调用 OCR,文本需要依赖手工补充或其它流程。

服务延迟和可达性会影响识别成功率与总耗时。

传给 OCR 服务的 language 参数。

选择 OCR 引擎;Auto 会根据图片特征做路由。

留空则使用服务默认值(如果服务支持)。

正在读取 OCR 运行配置...

ASR 参数配置

动态调整模型、VAD、解码和分片参数。

关闭后不会调用 ASR,音频仅能依赖手工补充文本。

服务延迟和可达性会直接影响总耗时与成功率。

当前推荐使用 faster-whisper,改错会导致转写失败。

模型越大,准确率通常更高,但 CPU/内存占用和耗时也更高。

固定语言可减少误判并略提速;auto 更灵活但可能更慢。

开启会先做语音活动检测,通常能降耗时和噪声误识别。

越大越可能提升准确率,但解码更慢。

候选越多越稳,但会增加推理时间。

低温更稳定,过高可能更“发散”并影响一致性。

开启有助于上下文连贯,关闭可减少前文误传播。

阈值越高越容易判定“无语音”,可降噪但可能漏识别。

大音频建议开启,能降低超时风险并提升稳定性。

超过该时长才切片,过小会带来额外切片开销。

单片越短越稳但切片更多;越长上下文更完整但耗时更高。

重叠可减少断句丢词,过大则会重复计算。

并行越高吞吐越高,但 CPU/内存占用也会明显上升。

用于拼接回调地址:{callback_base_url}/cl/api/asr-callback/{token}

仅对 ASR 异步回调路径生效(callback_url 非空时)。

回调失败后按尝试次数倍增退避间隔。

包含首次尝试在内的最大尝试次数。

正在读取 ASR 运行配置...