推理 (与你的数字分身对话)
微调完成后,你可以通过以下几种方式与你的数字分身进行交互。
使用浏览器 Demo 简单推理
这是一种快速测试模型效果并调整推理参数(如 temperature
, top_p
)的方法。 在激活虚拟环境的命令行中,运行:
bash
weclone-cli webchat-demo
脚本会启动一个本地 Web 服务 (通常在 http://127.0.0.1:7860
或类似地址),你可以在浏览器中打开它进行对话。在这里测试出的最佳推理参数可以更新回 settings.jsonc
的 infer_args
部分,供后续使用。
使用 API 接口进行推理
WeClone 提供了一个 API 服务,可以供其他应用程序调用。
启动 API 服务:
bashweclone-cli server
服务启动后,通常会监听在
http://127.0.0.1:8005/v1
(具体地址和端口请查看终端输出或settings.jsonc
中的配置)。通过 API 调用: 你可以使用任何 HTTP客户端 (如 Postman, curl,或 Python 的
requests
库) 向该 API 发送请求。API 通常兼容 OpenAI 的格式。
使用常见聊天问题测试
项目还提供了一个脚本,可以使用预设的问题列表来测试模型。
确保 API 服务 (
weclone-cli server
) 正在运行。打开一个新的命令行窗口 (并激活虚拟环境),然后运行:
bashweclone-cli test-model
测试结果会输出到
test_result-my.txt
。