本地端侧AI引擎插件指引

· 在硬件条件充足的情况下，可采用本地部署AI的方案，具有低延迟、低风险、低依赖、低漏洞、低限制、低成本的优势。获取插件，开启本地端侧AI引擎，数据无需上传云端。下述插件均为免费的开源项目，不仅支持对接AI助手，也支持对接第三方软件，或遵循开源协议自由二次开发应用。
(支持对接的AI助手版本尾注：C-社区版、L-Linux版、E-探索版)

本地文本/视觉大模型框架类

Transformers整合包：整合了HF的Transformers框架API服务器、阿里的Qwen3-0.6B大语言模型和Python运行环境。仅支持CPU运行，速度较慢，供入门学习。(E,C)
免费获取 ↓ 1.42G(度盘) ↓ (备用夸盘) 开源地址配置教程
原生llama.cpp框架：纯C/C++编写的高性能大模型推理引擎，零外部依赖，支持GGUF量化格式，内置OpenAI兼容API服务器与交互式CLI，支持CPU、N卡、A卡、Apple Metal及Vulkan加速，可自动检测硬件并智能分配计算资源，适用于从树莓派到服务器的全平台本地部署。(C)
免费获取开源地址
KoboldCpp框架：基于llama.cpp的单文件可执行AI文本生成工具，零安装零依赖，内置KoboldAI Lite Web UI与多模式创作界面，支持GGUF大模型推理，支持CPU、N卡、A卡、Metal及Vulkan运行，提供OpenAI兼容API与多前端适配。(C)
免费获取开源地址
Ollama框架：支持用命令行一键下载安装市面上的主流大模型，基于llama.cpp框架，有简易的图形界面。支持CPU、N卡、A卡运行，智能动态分配计算资源。(E,C,L)
免费获取开源地址配置教程(新版) 配置教程(旧版)
LM Studio框架：支持运行市面上的主流的GGUF大模型，基于llama.cpp框架，有丰富的图形界面。支持CPU、N卡、A卡、Vulkan核显运行。(E,C,L)
免费获取开源地址配置教程(新版) 配置教程(旧版)
AnythingLLM知识库：允许用户上传知识库(任何文档、资源或内容片段)转化为大语言模型在聊天中可利用的相关上下文。支持对接OpenAI兼容接口的大模型。(E,C,L)
免费获取开源地址配置教程
Dify聊天助手知识库：开源的LLM应用开发平台，支持用户上传知识库。功能强大，部署难度较高，需要熟悉虚拟机、Linux系统、Docker。(E,C,L)
开源地址配置教程
RKLLM框架整合包：Rockchip推出的工具链，用于将LLM高效部署到其支持NPU的平台，支持模型转换与量化(如w4a16、w8a8)，实现硬件加速推理。(L,仅适用于RK3588/3576芯片)
免费获取 ↓ 2M(度盘) ↓ (备用夸盘) 开源地址配置教程

本地语音合成大模型类

GPT-SoVITS整合包：RVC-Boss(花儿不哭)大佬团队开发的GPT-SoVITS语音合成大模型v2ProPlus-250604官方API整合包。支持CPU、N卡运行。具有低显存占用且速度快的优势。(E,C,L)
免费获取 ↓ 8.19G GPT-SoVITS适配AI助手补丁 ↓ 355K(度盘) ↓ (备用夸盘) 开源地址配置教程
Index-TTS整合包：整合了语音合成大模型API服务器、B站开发的Index-TTS语音合成大模型和Python运行环境。支持CPU、N卡运行。(E,C,L)
免费获取 ↓ 6.27G(度盘) ↓ (备用夸盘) 开源地址配置教程
VoxCPM整合包：整合了语音合成大模型API服务器、OpenBMB团队开发的VoxCPM2语音合成大模型-2B和Python运行环境，支持声音设计/克隆双模式。仅支持N卡运行。(E,C,L)
免费获取 ↓ 6.92G(度盘) ↓ (备用夸盘) 开源地址配置教程
Qwen-TTS整合包：整合了语音合成大模型API服务器、阿里通义团队开发的Qwen3-TTS语音合成大模型0.6B和Python运行环境。支持CPU、N卡运行。(E,C,L)
免费获取 ↓ 5.08G(度盘) ↓ (备用夸盘) 开源地址配置教程
OmniVoice整合包：整合了语音合成大模型API服务器、k2-fsa团队开发的OmniVoice语音合成大模型0.8B和Python运行环境，支持声音设计/克隆双模式。支持CPU、N卡运行。(C)
免费获取 ↓ 5.71G(度盘) ↓ (备用夸盘) 开源地址配置教程
CosyVoice整合包：整合了语音合成大模型API服务器、阿里FunAudioLLM开发的CosyVoice语音合成大模型1代300M/2代0.5B和Python运行环境。支持CPU、非50系N卡运行。(E,L)
免费获取1代 ↓ 4.98G 免费获取2代 ↓ 6.17G 开源地址配置教程

其他本地端侧AI引擎(独立运行,不支持对接AI助手)

Qwen2.5-Omni整合包：整合了阿里的Qwen2.5-Omni-3B端到端全模态大模型和Python运行环境。需要至少16G显存的N卡运行。输入支持视频、图像、语音、文字，输出支持语音、文字。
免费获取 ↓ 11.7G 开源地址使用教程
MNN Chat手机安装包：采用了阿里开源的端侧轻量级AI推理引擎MNN框架，手机也能畅玩本地多模态大模型，支持Qwen、DeepSeek、MiniCPM等模型。
免费获取(Android) ↓ 开源地址使用教程