关于TokForge
在手机上进行私密AI聊天。无需云端,无需订阅。
私密、本地、离线 AI。无广告,无需订阅
TokForge 可直接在您的 Android 设备上快速运行大型语言模型。无需云端,无需订阅,数据安全无虞。
无论您需要本地 AI 助手来提高工作效率,还是需要一个可以离线聊天的 AI 朋友,TokForge 都能在无需网络连接的情况下提供高性能推理。
TokForge 的功能:
与 AI 角色聊天
💬 您的离线 AI 聊天体验已全面升级。导入 TavernAI V2 角色卡(PNG/JSON),自定义角色个性,并通过实时生成功能进行真实对话。TokForge 是终极离线 AI 朋友,拥有丰富的背景故事、多种问候语和世界信息。推理模型甚至包含可折叠的思维模块,用于深度逻辑推理。
附加文档并提问
📄 将 TokForge 变成强大的本地 AI 研究工具。只需上传 PDF、DOCX、EPUB 或文本文件,即可像离线应用一样提问。该应用利用 RAPTOR 树索引和 BGE-small 嵌入,能够即时找到相关段落。得益于增量键值缓存保留技术,后续问题也能快速响应。
聆听回复朗读
🔊 一款真正的 Android 离线语音助手。内置 Kokoro TTS,提供 11 种语音和两种音质等级,您的离线助手可以零延迟、零流量地朗读回复。
推测解码速度提升 2 倍
⚡ 体验移动端最快的 LLM 性能。小型草稿模型进行预测,同时主模型批量验证。凭借实时 tok/s 指示器和智能后端路由,它是目前最高效的设备端 AI 解决方案。
三个后端,五条 GPU 路径
· 基于 OpenCL 和 Vulkan GPU 的 MNN:针对 Mali 和 Adreno 优化的内核。TQ4 TurboQuant 在小型模型上可达到 46–57 tok/s 的吞吐量。
· 通过 llama.cpp 实现的 GGUF:ARM i8mm、Vulkan 协作矩阵、闪存注意力机制和完整的量化范围。
· 远程 API:兼容 OpenAI 的流式传输,支持 Ollama、vLLM 或 llama.cpp 服务器。
· SoC 感知自动路由:这款本地 AI 助手会自动为您的特定芯片组选择最快的路径。
高级 AI 离线聊天功能:
• 您的 AI 会记住您: 基于字符的持久记忆,支持后台提取。知识图谱利用混合关键词搜索和语义搜索来追踪实体关系。
• 优化您的设备: ForgeLab 会在您的硬件上对每种 AI 模型和后端组合进行基准测试。AutoForge 会扫描所有配置,为您的离线 AI 应用选择最快的设置。
• 开发者 API: 提供 120 多个端点,可对 HTTP 进行完全的本地控制。您可以以编程方式加载模型、管理内存和发送消息。
真实硬件测试
- RedMagic 11 Pro:21.0 tok/s — Qwen3-8B
- Galaxy S24 Ultra:13.58 tok/s — Qwen3-4B
- OnePlus Ace 5 Ultra:11.88 tok/s — Qwen3-8B
- Xiaomi Pad 7 Pro:11.81 tok/s — Qwen3-4B
为什么选择 TOKFORGE?
►这是一款面向不愿在速度或安全性上妥协的用户的全功能 AI 应用。
►零分析、零遥测、零云依赖。
►免费离线 AI 聊天机器人:所有推理均在设备本地完成——飞行模式完美运行。
►无需注册,无需账号。
►17 款精选模型(0.6B–14B):Qwen3、DeepSeek-R1、Llama 3、Phi-4 等,任您选择。
您的智能手机比您想象的更智能、更强大。通过将 AI 的大脑直接移植到您的芯片上,我们消除了延迟、成本和云端窥探的困扰。
☑️立即下载这款免费的离线 AI 强大工具,掌控您的数据。
最新版本v3.5.0-RC20.23.81更新日志
Last updated on 2026年05月27日
Gemma4 omni fixes, supports vision attachments now, RAG Fixes, Samsung + Pixel performance enhancements and game mode enrollment steps, turboquant addition, vulkan fixes, stability and improvement for pixel & exynos & mediatek








