An Awesome Collection for LLM in Chinese
收集和梳理中文LLM相关
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
如果本项目能给您带来一点点帮助,麻烦点个⭐️吧~
同时也欢迎大家贡献本项目未收录的开源模型、应用、数据集等。提供新的仓库信息请发起PR,并按照本项目的格式提供仓库链接、star数,简介等相关信息,感谢~
常见底座模型细节概览:
底座 | 包含模型 | 模型参数大小 | 训练token数 | 训练最大长度 | 是否可商用 |
---|---|---|---|---|---|
ChatGLM | ChatGLM/2/3 Base&Chat | 6B | 1T/1.4 | 2K/32K | 可商用 |
LLaMA | LLaMA/2/3 Base&Chat | 7B/8B/13B/33B/70B | 1T/2T | 2k/4k | 部分可商用 |
Baichuan | Baichuan/2 Base&Chat | 7B/13B | 1.2T/1.4T | 4k | 可商用 |
Qwen | Qwen/1.5 Base&Chat | 7B/14B/72B/110B | 2.2T/3T | 8k/32k | 可商用 |
BLOOM | BLOOM | 1B/7B/176B-MT | 1.5T | 2k | 可商用 |
Aquila | Aquila/2 Base/Chat | 7B/34B | - | 2k | 可商用 |
InternLM | InternLM/2 Base/Chat/Code | 7B/20B | - | 200k | 可商用 |
Mixtral | Base&Chat | 8x7B | - | 32k | 可商用 |
Yi | Base&Chat | 6B/9B/34B | 3T | 200k | 可商用 |
DeepSeek | Base&Chat | 1.3B/7B/33B/67B | - | 4k | 可商用 |
XVERSE | Base&Chat | 7B/13B/65B/A4.2B | 2.6T/3.2T | 8k/16k/256k | 可商用 |
VisualGLM-6B
CogVLM
VisCPM
Visual-Chinese-LLaMA-Alpaca
LLaSM
Qwen-VL
DoctorGLM:
BenTsao:
BianQue:
HuatuoGPT:
Med-ChatGLM:
QiZhenGPT:
ChatMed:
XrayGLM,首个会看胸部X光片的中文多模态医学大模型:
MeChat,中文心理健康支持对话大模型:
MedicalGPT
Sunsimiao
ShenNong-TCM-LLM
SoulChat
CareGPT
DISC-MedLLM
Taiyi-LLM
WiNGPT
ChiMed-GPT
MindChat
獬豸(LawGPT_zh): 中文法律对话语言模型
LaWGPT:基于中文法律知识的大语言模型
LexiLaw:中文法律大模型
Lawyer LLaMA:中文法律LLaMA
韩非(HanFei)
ChatLaw-法律大模型
lychee_law-律知
智海-录问(wisdomInterrogatory)
夫子•明察司法大模型
DISC-LawLLM
Cornucopia(聚宝盆):基于中文金融知识的LLaMA微调模型
BBT-FinCUGE-Applications
XuanYuan(轩辕):首个千亿级中文金融对话模型
FinGPT
DISC-FinLLM
Tongyi-Finance
桃李(Taoli):
EduChat:
chatglm-maths:
MathGLM:
QiaoBan:
天文大语言模型StarGLM:
TransGPT·致远:
Mozi:
langchain-ChatGLM:
LangChain-ChatGLM-Webui:
Langchain-ChatGLM-and-TigerBot:
Chinese-LangChain:
Lagent:
DemoGPT:
ChatDev:
wenda:
JittorLLMs:
LMFlow:
fastllm:
WebCPM
GPT Academic:
ChatALL:
CreativeChatGLM:
docker-llama2-chat:
ChatGLM2-Voice-Cloning:
Flappy
MNBVC
WuDaoCorporaText
CLUECorpus2020
WanJuan-1.0
RefGPT:基于RefGPT生成大量真实和定制的对话数据集
COIG
generated_chat_0.4M:
alpaca_chinese_dataset:
Alpaca-CoT:
pCLUE:
firefly-train-1.1M:
BELLE-data-1.5M:
Chinese Scientific Literature Dataset:
Chinese medical dialogue data:
Huatuo-26M:
Alpaca-GPT-4:
InstructionWild
ShareChat
Guanaco
chatgpt-corpus
SmileConv
CValues
GPT-4-LLM
zhihu_rlhf_3k
hh_rlhf_cn
chatbot_arena_conversations
UltraFeedback
DeepSpeed Chat:
LLaMA Efficient Tuning:
ChatGLM Efficient Tuning:
bert4torch:
vLLM:
DeepSpeed-MII:
text-generation-inference:
CTranslate2
OpenLLM
MLC LLM
LightLLM:
AirLLM:
LMDeploy:
FlagEval (天秤)大模型评测体系及开放平台
C-Eval: 构造中文大模型的知识评估基准:
OpenCompass:
SuperCLUElyb: SuperCLUE琅琊榜
GAOKAO-Bench:
AGIEval:
Xiezhi:
Open LLM Leaderboard:
CMMLU:
MMCU:
chinese-llm-benchmark:
Safety-Prompts:
PromptCBLUE: 中文医疗场景的LLM评测基准
HalluQA: 中文幻觉评估基准
HuggingLLM:
LLMsPracticalGuide:
面向开发者的 LLM 入门课程:
提示工程指南:
awesome-chatgpt-prompts-zh:
LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:
OpenAI Cookbook:
构筑大语言模型应用:应用开发与架构设计:
LLMs九层妖塔:
llm-action:
llm大模型训练专栏:
书生·浦语大模型实战营
FindTheChatGPTer:
LLM_reviewer:
Awesome-AITools:
open source ChatGPT and beyond:
Awesome Totally Open Chatgpt:
Awesome-LLM:
DecryptPrompt:
Awesome Pretrained Chinese NLP Models:
ChatPiXiu:
LLM-Zoo:
LLMs-In-China:
BMList:
awesome-free-chatgpt:
Awesome-Domain-LLM:
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。