本文最后更新于9 天前，其中的信息可能已经过时，如有错误请发送邮件到2275012286@qq.com，或者在下方留言。

想了解更多技术分享请搜索“技术”标签，本人水平有限，内容可能不严谨或存在错误，如有发现错误请在评论区处留言，欢迎批评指正。

低配本地部署无限制千问和混元翻译模型教程

一、前言

1.什么是本地部署大语言模型

本地部署大语言模型，就是把 AI 模型下载到自己的电脑上运行，不依赖网页端、不需要排队，也不用每次都把内容发送到第三方服务器，也可以实现无审回答，保护隐私数据。对于低配电脑来说，最关键的是选择合适的量化模型，本教程已经测试包括 Q4_K_M、IQ2_M 这两种 GGUF 格式模型，再配合 llama.cpp 运行，本人的电脑配置实测能够正常运行。

2. 关于无限制千问和混元翻译模型

本文主要部署两个模型：

千问 Qwen：适合写提示词、聊天、角色扮演、文案生成，可搭配酒馆使用
混元翻译 Hunyuan-MT：适合多语种互译、长文本翻译、本地翻译接口

所谓“无限制”主要指本地模型由自己运行，不会拒绝你的问题，不依赖在线平台的账号、额度和接口限制。但仍建议合理使用，不要用于违法、侵权或恶意用途。

二、部署过程

1. 电脑配置建议

低配部署不一定需要顶级显卡，但需要注意显存和内存。

推荐配置：

显卡：6GB 显存起步，8GB 更舒服
内存：16GB 起步，32GB 推荐
硬盘：至少预留 50GB 空间
系统：Windows 10 / Windows 11
显卡驱动：建议更新到较新版本

如果只是写提示词，不追求超长上下文和高并发，8GB 显存已经可以跑不少量化模型。

2. 准备目录

建议统一放到一个目录，方便管理：

D:\AppData\AI
├── llama
├── cuda
├── models
└── 启动Qwen3.6.cmd

其中：

llama：放 llama.cpp 程序
cuda：放 CUDA 相关运行库
models：放 GGUF 模型文件
启动Qwen3.6.cmd：一键启动脚本

3. 下载 llama.cpp

官方下载页：Releases · ggml-org/llama.cpp

需要下载 Windows CUDA 版本的 llama.cpp和cuda。

下载后解压到：

D:\AppData\AI\llama 和 D:\AppData\AI\cuda。

确认里面有：

llama-server.exe

这个程序负责把本地模型启动成一个 OpenAI 兼容接口。

4. 下载千问 GGUF 模型

下载地址：https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

模型放到：

D:\AppData\AI\models

低配优先推荐：

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf

如果显存和内存更充足，可以选择：

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf

多模态投影文件，可选：

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf

简单选择建议：

6GB / 8GB 显卡：优先 IQ2_M
8GB 显卡 + 32GB 内存：可以试 Q4_K_M
只写提示词：IQ2_M 已经够用
追求质量：选 Q4_K_M

5. 下载混元翻译模型

下载地址：https://huggingface.co/mradermacher/Hunyuan-MT-7B-i1-GGUF

混元翻译模型同样放到：

D:\AppData\AI\models

例如：

Hunyuan-MT-7B.i1-Q4_K_M.gguf

这个模型比 35B 千问小很多，更适合专门做翻译。

6. 编写一键启动脚本

可以新建：

D:\AppData\AI\启动Qwen3.6.cmd

脚本里做成菜单形式（点我）

@echo off
chcp 65001 >nul
title 本地AI启动器

cd /d "%~dp0llama"

:menu
cls
echo ==========================================
echo        本地AI模型启动器
echo ==========================================
echo.
echo 1. 启动 Qwen Q4_K_M
echo 2. 启动 Qwen IQ2_M
echo 3. 启动 Hunyuan-MT 翻译模型
echo.
echo ==========================================
set /p choice=请输入数字：

if "%choice%"=="1" (
    llama-server.exe ^
    -m "..\models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 4096 ^
    --host 127.0.0.1 ^
    --port 8080 ^
    --chat-template chatml
)

if "%choice%"=="2" (
    llama-server.exe ^
    -m "..\models\Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 4096 ^
    --host 127.0.0.1 ^
    --port 8080 ^
    --chat-template chatml
)

if "%choice%"=="3" (
    llama-server.exe ^
    -m "..\models\Hunyuan-MT-7B.i1-Q4_K_M.gguf" ^
    -ngl 999 ^
    -c 8192 ^
    -n 2048 ^
    --host 127.0.0.1 ^
    --port 8081
)

pause

7. 启动模型

双击启动脚本后，根据需要选择：

千问模型：访问 http://127.0.0.1:8080
混元翻译模型：访问 http://127.0.0.1:8081

如果看到服务启动成功，说明模型已经加载完成。

8. 接入 SillyTavern （酒馆）或其他前端

如果使用 SillyTavern（酒馆）可以这样配置：

API 类型：Chat Completion API 地址：http://127.0.0.1:8080/v1 模型名：qwen-local

官方 Windows 安装文档：

https://docs.sillytavern.app/installation/windows

混元翻译可以单独接（沉浸式翻译插件使用示例）：

API 地址：http://127.0.0.1:8081/v1 模型名：hunyuan-mt

沉浸式翻译 – 新一代AI翻译软件 | 双语对照网页翻译/PDF翻译/视频字幕翻译/漫画&图片翻译

9. 常见参数解释

-m：模型路径
-ngl：GPU 加速层数，999 表示尽量全部放到显卡
-c：上下文长度
-n：单次最大输出长度
–host：监听地址
–port：端口
–chat-template：聊天模板，千问建议用 chatml

10. 低配优化建议

如果显存不够，可以这样调：

把 Q4_K_M 换成 IQ2_M
把 -c 8192 降到 4096
关闭浏览器、游戏、剪辑软件
不要同时运行 ComfyUI 和大语言模型
任务管理器里查看显存占用
优先用小模型做翻译，大模型做创作

11. 常见问题

启动后很慢怎么办？

第一次加载模型会比较慢，尤其是大模型。只要没有报错，可以等待一会。

显存占满怎么办？

降低上下文长度，或者换更低量化版本。

输出速度差不多正常吗？

正常。很多时候瓶颈不是模型大小，而是显存、内存带宽、上下文长度和 CPU 调度。

超过上下文会怎么样？

模型会遗忘前面的内容，或者服务端截断旧内容。建议长对话定期重新开启。