低配本地部署无限制千问和混元翻译模型教程
本文最后更新于9 天前,其中的信息可能已经过时,如有错误请发送邮件到2275012286@qq.com,或者在下方留言。

想了解更多技术分享请搜索“技术”标签,本人水平有限,内容可能不严谨或存在错误,如有发现错误请在评论区处留言,欢迎批评指正。

低配本地部署无限制千问和混元翻译模型教程

一、前言

1.什么是本地部署大语言模型

本地部署大语言模型,就是把 AI 模型下载到自己的电脑上运行,不依赖网页端、不需要排队,也不用每次都把内容发送到第三方服务器,也可以实现无审回答,保护隐私数据。对于低配电脑来说,最关键的是选择合适的量化模型,本教程已经测试包括 Q4_K_M、IQ2_M 这两种 GGUF 格式模型,再配合 llama.cpp 运行,本人的电脑配置实测能够正常运行。

2. 关于无限制千问和混元翻译模型

本文主要部署两个模型:

  • 千问 Qwen:适合写提示词、聊天、角色扮演、文案生成,可搭配酒馆使用
  • 混元翻译 Hunyuan-MT:适合多语种互译、长文本翻译、本地翻译接口

所谓“无限制”主要指本地模型由自己运行,不会拒绝你的问题,不依赖在线平台的账号、额度和接口限制。但仍建议合理使用,不要用于违法、侵权或恶意用途。

二、部署过程

1. 电脑配置建议

低配部署不一定需要顶级显卡,但需要注意显存和内存。

推荐配置:

  • 显卡:6GB 显存起步,8GB 更舒服
  • 内存:16GB 起步,32GB 推荐
  • 硬盘:至少预留 50GB 空间
  • 系统:Windows 10 / Windows 11
  • 显卡驱动:建议更新到较新版本

如果只是写提示词,不追求超长上下文和高并发,8GB 显存已经可以跑不少量化模型。

2. 准备目录

建议统一放到一个目录,方便管理:

D:\AppData\AI
├── llama
├── cuda
├── models
└── 启动Qwen3.6.cmd

其中:

  • llama:放 llama.cpp 程序
  • cuda:放 CUDA 相关运行库
  • models:放 GGUF 模型文件
  • 启动Qwen3.6.cmd:一键启动脚本

3. 下载 llama.cpp

官方下载页:Releases · ggml-org/llama.cpp

需要下载 Windows CUDA 版本的 llama.cpp和cuda。

下载后解压到:

D:\AppData\AI\llama 和 D:\AppData\AI\cuda。

确认里面有:

llama-server.exe

这个程序负责把本地模型启动成一个 OpenAI 兼容接口。

4. 下载千问 GGUF 模型

下载地址:https://huggingface.co/HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

模型放到:

D:\AppData\AI\models

低配优先推荐:

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-IQ2_M.gguf

如果显存和内存更充足,可以选择:

Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-Q4_K_M.gguf

多模态投影文件,可选:

mmproj-Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive-f16.gguf

简单选择建议:

  • 6GB / 8GB 显卡:优先 IQ2_M
  • 8GB 显卡 + 32GB 内存:可以试 Q4_K_M
  • 只写提示词:IQ2_M 已经够用
  • 追求质量:选 Q4_K_M

5. 下载混元翻译模型

下载地址:https://huggingface.co/mradermacher/Hunyuan-MT-7B-i1-GGUF

混元翻译模型同样放到:

D:\AppData\AI\models

例如:

Hunyuan-MT-7B.i1-Q4_K_M.gguf

这个模型比 35B 千问小很多,更适合专门做翻译。

6. 编写一键启动脚本

可以新建:

D:\AppData\AI\启动Qwen3.6.cmd

7. 启动模型

双击启动脚本后,根据需要选择:

  • 千问模型:访问 http://127.0.0.1:8080
  • 混元翻译模型:访问 http://127.0.0.1:8081

如果看到服务启动成功,说明模型已经加载完成。

8. 接入 SillyTavern (酒馆)或其他前端

如果使用 SillyTavern(酒馆)可以这样配置:

API 类型:Chat Completion API 地址:http://127.0.0.1:8080/v1 模型名:qwen-local

官方 Windows 安装文档:

https://docs.sillytavern.app/installation/windows

混元翻译可以单独接(沉浸式翻译插件使用示例):

API 地址:http://127.0.0.1:8081/v1 模型名:hunyuan-mt

沉浸式翻译 – 新一代AI翻译软件 | 双语对照网页翻译/PDF翻译/视频字幕翻译/漫画&图片翻译

9. 常见参数解释

-m:模型路径
-ngl:GPU 加速层数,999 表示尽量全部放到显卡
-c:上下文长度
-n:单次最大输出长度
–host:监听地址
–port:端口
–chat-template:聊天模板,千问建议用 chatml

10. 低配优化建议

如果显存不够,可以这样调:

  • 把 Q4_K_M 换成 IQ2_M
  • 把 -c 8192 降到 4096
  • 关闭浏览器、游戏、剪辑软件
  • 不要同时运行 ComfyUI 和大语言模型
  • 任务管理器里查看显存占用
  • 优先用小模型做翻译,大模型做创作

11. 常见问题

启动后很慢怎么办?

第一次加载模型会比较慢,尤其是大模型。只要没有报错,可以等待一会。

显存占满怎么办?

降低上下文长度,或者换更低量化版本。

输出速度差不多正常吗?

正常。很多时候瓶颈不是模型大小,而是显存、内存带宽、上下文长度和 CPU 调度。

超过上下文会怎么样?

模型会遗忘前面的内容,或者服务端截断旧内容。建议长对话定期重新开启。

更加详细的项目内容和更新动态请前往 Github 查看。✧(≖ ◡ ≖✿) 有问题欢迎在下方留言,你的建议是我更新的动力!
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇