AI00 Server
是一个基于RWKV
模型的推理API服务器。
AI00 Server
基于 WEB-RWKV
推理引擎进行开发。
支持Vulkan/Dx12/OpenGL作为推理后端,无需臃肿的pytorch
、CUDA
等运行环境,小巧身材,开箱即用!
兼容OpenAI的ChatGPT API接口。
100% 开源可商用,采用MIT协议。
如果你是想要在自己的应用程序中内嵌一个LLM,且对用户的机器要求不那么苛刻(6GB以上GRAM的显卡), AI00 Server
无疑是一个很好的选择。
立即加入AI00 RWKV Server
社区,体验AI的魅力!
交流QQ群:30920262
你必须(在构建时)下载模型并将其放置在assets/models
中,如果你从源代码构建。
你可以从 HuggingFace 下载官方 RWKV World 系列模型,并使用提供的convert_safetensors.py
进行转换。
如果你不想安装 Python,也可以前往web-rwkv
下载无依赖的转换器。
直接从 Release 下载最新版本
下载模型后把模型放在assets/models/
路径,例如assets/models/RWKV-x060-World-3B-v2-20240228-ctx4096.st
你可以修改 assets/configs/Config.toml
里面的模型配置,包括模型路径、量化层数等
在命令行运行
./ai00_rwkv_server
打开浏览器,访问WebUI
https://localhost:65530
克隆本仓库
git clone https://github.com/cgisky1980/ai00_rwkv_server.git
cd ai00_rwkv_server
下载模型后把模型放在
assets/models/
路径下,例如assets/models/RWKV-x060-World-3B-v2-20240228-ctx4096.st
编译
cargo build --release
编译完成后运行
cargo run --release
打开浏览器,访问WebUI
https://localhost:65530
本项目目前仅支持.st
后缀的 Safetensors 模型,通过torch
保存的.pth
后缀模型需要在使用前进行转换。
克隆或下载本仓库下convert_safetensors.py程序,并安装相应的依赖库
运行上述程序,并指定输入输出路径
$ python convert_safetensors.py --input ./filename.pth --output ./filename.st
如果你不想安装 Python 或 Torch,可以前往web-rwkv
并下载不依赖于 Python 或 Torch 的转换器web-rwkv-converter
$ ./web-rwkv-converter --input /path/to/model.pth
根据上文步骤,将转换所得的.st
模型文件放在assets/models/
路径下,并修改 assets/Config.toml
中的模型路径
--config
: 模型配置文件路径(默认assets/Config.toml
)--ip
: 服务器绑定的IP地址--port
: 运行端口API 服务开启于 65530 端口, 数据输入已经输出格式遵循Openai API 规范。
/api/oai/v1/models
/api/oai/models
/api/oai/v1/chat/completions
/api/oai/chat/completions
/api/oai/v1/completions
/api/oai/completions
/api/oai/v1/embeddings
/api/oai/embeddings
text_completions
和chat_completions
sse
推送embeddings
Batch serve
并行推理int8
量化支持nf4
量化支持LoRA
模型支持LoRA
模型热加载、切换我们一直在寻找有兴趣帮助我们改进项目的人。如果你对以下任何一项感兴趣,请加入我们!
无论你的技能水平如何,我们都欢迎你加入我们。你可以通过以下方式加入我们:
我们迫不及待地想与你合作,让这个项目变得更好!希望项目对你有帮助!
顾真牛 📖 💻 🖋 🎨 🧑🏫 |
研究社交 💻 💡 🤔 🚧 👀 📦 |
josc146 🐛 💻 🤔 🔧 |
l15y 🔧 🔌 💻 |
来自 QQ 群
来自 Github
来自 Discord
我们很感激您的帮助,我们很高兴能与您合作。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
1. 开源生态
2. 协作、人、软件
3. 评估模型