本地端侧AI引擎插件指引

​ · 在硬件条件充足的情况下,可采用本地部署AI的方案,具有低延迟、低风险、低依赖、低漏洞、低限制、低成本的优势。获取插件,开启本地端侧AI引擎,数据无需上传云端。下述插件均为免费的开源项目,不仅支持对接AI助手,也支持对接第三方软件,或遵循开源协议自由二次开发应用。
(支持对接的AI助手版本尾注:C-社区版、L-Linux版、E-探索版)

本地文本/视觉大模型框架类

Transformers整合包:整合了HF的Transformers框架API服务器、阿里的Qwen3-0.6B大语言模型和Python运行环境。仅支持CPU运行,速度较慢,供入门学习。(E,C)
免费获取 ↓ 1.42G(度盘) ↓ (备用夸盘) 开源地址 配置教程
原生llama.cpp框架:纯C/C++编写的高性能大模型推理引擎,零外部依赖,支持GGUF量化格式,内置OpenAI兼容API服务器与交互式CLI,支持CPU、N卡、A卡、Apple Metal及Vulkan加速,可自动检测硬件并智能分配计算资源,适用于从树莓派到服务器的全平台本地部署。(C)
免费获取 开源地址
KoboldCpp框架:基于llama.cpp的单文件可执行AI文本生成工具,零安装零依赖,内置KoboldAI Lite Web UI与多模式创作界面,支持GGUF大模型推理,支持CPU、N卡、A卡、Metal及Vulkan运行,提供OpenAI兼容API与多前端适配。(C)
免费获取 开源地址
Ollama框架:支持用命令行一键下载安装市面上的主流大模型,基于llama.cpp框架,有简易的图形界面。支持CPU、N卡、A卡运行,智能动态分配计算资源。(E,C,L)
免费获取 开源地址 配置教程(新版) 配置教程(旧版)
LM Studio框架:支持运行市面上的主流的GGUF大模型,基于llama.cpp框架,有丰富的图形界面。支持CPU、N卡、A卡、Vulkan核显运行。(E,C,L)
免费获取 开源地址 配置教程(新版) 配置教程(旧版)
AnythingLLM知识库:允许用户上传知识库(任何文档、资源或内容片段)转化为大语言模型在聊天中可利用的相关上下文。支持对接OpenAI兼容接口的大模型。(E,C,L)
免费获取 开源地址 配置教程
Dify聊天助手知识库:开源的LLM应用开发平台,支持用户上传知识库。功能强大,部署难度较高,需要熟悉虚拟机、Linux系统、Docker。(E,C,L)
开源地址 配置教程
RKLLM框架整合包:Rockchip推出的工具链,用于将LLM高效部署到其支持NPU的平台,支持模型转换与量化(如w4a16、w8a8),实现硬件加速推理。(L,仅适用于RK3588/3576芯片)
免费获取 ↓ 2M(度盘) ↓ (备用夸盘) 开源地址 配置教程

本地语音合成大模型类

GPT-SoVITS整合包:RVC-Boss(花儿不哭)大佬团队开发的GPT-SoVITS语音合成大模型v2ProPlus-250604官方API整合包。支持CPU、N卡运行。具有低显存占用且速度快的优势。(E,C,L)
免费获取 ↓ 8.19G GPT-SoVITS适配AI助手补丁 ↓ 355K(度盘) ↓ (备用夸盘) 开源地址 配置教程
Index-TTS整合包:整合了语音合成大模型API服务器、B站开发的Index-TTS语音合成大模型和Python运行环境。支持CPU、N卡运行。(E,C,L)
免费获取 ↓ 6.27G(度盘) ↓ (备用夸盘) 开源地址 配置教程
VoxCPM整合包:整合了语音合成大模型API服务器、OpenBMB团队开发的VoxCPM2语音合成大模型-2B和Python运行环境,支持声音设计/克隆双模式。仅支持N卡运行。(E,C,L)
免费获取 ↓ 6.92G(度盘) ↓ (备用夸盘) 开源地址 配置教程
Qwen-TTS整合包:整合了语音合成大模型API服务器、阿里通义团队开发的Qwen3-TTS语音合成大模型0.6B和Python运行环境。支持CPU、N卡运行。(E,C,L)
免费获取 ↓ 5.08G(度盘) ↓ (备用夸盘) 开源地址 配置教程
OmniVoice整合包:整合了语音合成大模型API服务器、k2-fsa团队开发的OmniVoice语音合成大模型0.8B和Python运行环境,支持声音设计/克隆双模式。支持CPU、N卡运行。(C)
免费获取 ↓ 5.71G(度盘) ↓ (备用夸盘) 开源地址
CosyVoice整合包:整合了语音合成大模型API服务器、阿里FunAudioLLM开发的CosyVoice语音合成大模型1代300M/2代0.5B和Python运行环境。支持CPU、非50系N卡运行。(E,L)
免费获取1代 ↓ 4.98G 免费获取2代 ↓ 6.17G 开源地址 配置教程

其他本地端侧AI引擎(独立运行,不支持对接AI助手)

Qwen2.5-Omni整合包:整合了阿里的Qwen2.5-Omni-3B端到端全模态大模型和Python运行环境。需要至少16G显存的N卡运行。输入支持视频、图像、语音、文字,输出支持语音、文字。
免费获取 ↓ 11.7G 开源地址 使用教程
MNN Chat手机安装包:采用了阿里开源的端侧轻量级AI推理引擎MNN框架,手机也能畅玩本地多模态大模型,支持Qwen、DeepSeek、MiniCPM等模型。
免费获取(Android) ↓ 开源地址 使用教程