大模型学习课程或教程
名称 |
介绍 |
课程或教程地址 |
发布或发表时间 |
The Transformer Family Version 2.0 |
大模型家族详细介绍 |
The Transformer Family Version 2.0 | Lil'Log (lilianweng.github.io) |
2023-01-27 |
TensorFlow学习教程 |
Google官方TensorFlow学习教程,可以直接通过Google colab实验室运行教程中的代码 |
2022-09-21 |
|
斯坦福大模型课程CS324 |
CS324提供了关于大型语言模型建模、理论、伦理和系统方面的基础知识,并且提供了亲自体验构建大模型的机会。 |
2021-12-24 |
|
伯克利STAT 157深度学习课程 |
这个课程提供了深度学习的实用介绍,包括理论动机以及如何在实践中实现。 |
2019-02 |
|
The Illustrated Transformer |
“Transformer”概念通俗易懂介绍 |
2018-06-27 |
大模型项目
模型名称 |
介绍 |
介绍地址 |
发布时间 |
Vicuna-13B |
一个开源的聊天机器人,通过在从ShareGPT收集的用户共享对话上进行LLaMA微调来训练。使用GPT-4作为评判标准的初步评估显示,Vicuna-13B在超过90%*的情况下实现了OpenAI ChatGPT和Google Bard的质量,并且在超过90%* 的情况下优于其他模型(如LLaMA和Stanford Alpaca)。训练Vicuna-13B的成本约为300美元。训练和服务代码以及在线演示可供非商业用途公开使用。 |
2023-03-19 |
|
LangChain |
一个用于开发由语言模型驱动的应用程序的框架 |
2023-03-24 |
|
LMFlow |
一个可扩展、方便、高效的工具箱,用于微调大型机器学习模型,旨在用户友好、快速可靠,并且对整个社区开放。 |
2023-03-27 |
|
Chatbot Arena |
一个基于大型语言模型(LLMs)的基准平台,在发布博客文章中,给出了一个基于Elo评分系统的排行榜 |
2023-05-03 |
|
ImageBind |
第一个能够同时绑定六种模态数据的AI模型,无需明确监督。通过识别这些模态之间的关系——图像和视频、音频、文本、深度、热量和惯性测量单元(IMUs)——这一突破有助于推进人工智能,使机器能够更好地分析许多不同形式的信息。 |
2023-05-09 |
ChatGPT相关大模型论文合集
论文分类 |
名称 |
论文链接 |
发表时间 【时间为预印网站最新时间】 |
Transformer |
Transformer 论文 |
2017-12-05 |
|
Transformer 模型介绍和分类 |
2023-02-16 |
||
OpenAI |
DALL E 论文 |
2021-02-26 |
|
DALL E 2论文 |
Hierarchical Text-Conditional Image Generation with CLIP Latents |
2022-04-12 |
|
Codex 论文 |
2021-07-14 |
||
GPT-1 |
Improving Language Understanding by Generative Pre-Training |
2018-06 |
|
GPT-2 |
2019-02 |
||
GPT-3 |
2020-07-22 |
||
InstructGPT |
Training language models to follow instructions with human feedback |
2022-03-04 |
|
GPT-4 |
2023-03-27 |
||
GPT对美国劳动力市场影响研究论文 |
2023-03-23 |
||
语言模型可以解释语言模型中的神经元 |
Language models can explain neurons in language models (windows.net) |
2023-05-09 |
|
开源GPT替代模型 |
BLOOM:1760亿参数的仅解码器Transformer语言模型 |
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model |
2023-03-13 |
开放预训练Transformer语言模型 |
2022-06-21 |
||
Chain of Thought |
Chain of Thought论文 |
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models |
2023-01-10 |
语言模型中的多模态思维链推理 |
2023-02-16 |
||
ViLT |
ViLT论文 |
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision |
2021-06-10 |
HELM |
HELM全面语言模型评测论文 |
2022-11-16 |
|
GPT模型分析 |
复旦大学GPT模型对比分析 |
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models |
2023-03-18 |
微软研究院GPT-4早期实验 |
Sparks of Artificial General Intelligence: Early experiments with GPT-4 |
2023-03-27 |
|
AIGC完整调查,ChatGPT从GPT-4到GPT-5是你所需要的全部吗? |
A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need? |
2023-03-21 |
|
Anthropic |
Anthropic LLM论文 |
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback |
2022-04-12 |
LaMda |
LaMda模型论文 |
2022-02-10 |
|
GLM |
GLM论文 |
GLM: General Language Model Pretraining with Autoregressive Blank Infilling |
2022-03-17 |
GLM-130B |
2022-10-05 |
||
Toolformer |
Toolformer模型论文 |
Toolformer: Language Models Can Teach Themselves to Use Tools |
2023-02-09 |
GPT-4应用分析 |
GPT-4在医学挑战问题上的能力 |
2023-03-20 |
|
人工缪斯:生成式人工智能聊天机器人已经达到了与人类相当的创造力水平 |
Artificial muses: Generative Artificial Intelligence Chatbots Have Risen to Human-Level Creativity |
2023-03-21 |
|
心灵与机器相遇:揭开GPT-4的认知心理学 |
Mind meets machine: Unravelling GPT-4's cognitive psychology |
2023-03-20 |
|
CodeGeeX |
CodeGeeX,一个具有130亿参数的多语言代码生成模型。截至2022年6月,CodeGeeX已经在23种编程语言的8500亿个标记上进行了预训练。广泛的实验表明,在HumanEval-X上,CodeGeeX在代码生成和翻译任务方面都优于规模相似的多语言代码模型。 |
CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Evaluations on HumanEval-X |
2023-03-30 |
BloombergGPT |
基于广泛的金融数据进行训练的500亿参数语言模型,拥有一个3630亿令牌数据集,基于彭博社广泛的数据来源,可能是迄今为止最大规模的特定领域数据集,并增加了来自通用目标数据集的3450亿令牌。通过标准LLM基准测试、开放式金融基准测试以及一套最能反映彭博社预期使用方式的内部基准测试验证了BloombergGPT。通过混合数据集训练得到了一个性能优异且不损失通用LLM基准表现水平但在金融任务上超越现有模型很多倍的模型。 |
2023-03-30 |
|
HuggingGPT |
HuggingGPT是一个协作系统,由LLM作为控制器和许多专家模型作为协作执行者(来自HuggingFace Hub)组成。系统工作流程包括四个阶段: 1. 任务规划:使用ChatGPT分析用户请求以理解其意图,并将其分解为可能可解决的任务。 2. 模型选择:为了解决计划中的任务,ChatGPT基于它们的描述选择托管在Hugging Face上的专家模型。 3. 任务执行:调用并执行每个选定的模型,并将结果返回给ChatGPT。 4. 响应生成:最后,使用ChatGPT集成所有模型的预测,并生成响应。 |
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face |
2023-04-01 |
ImageBind |
一种学习跨越六种不同模态的联合嵌入的方法——图像、文本、音频、深度、热和IMU数据。ImageBind可以利用最近大规模视觉语言模型,并通过使用它们与图像自然匹配来扩展其零样本能力到新的模态上。 |
2023-05-09 |
OpenAI参考资料集锦
功能 |
地址 |
OpenAI 官方Prompt调试 |
|
OpenAI 官方文档 |
|
OpenAI API文档 |
|
OpenAI 官方Prompts示例 |
|
OpenAI 官方论文合集 |
|
OpenAI 产品介绍 |
|
OpenAI 模型使用价格说明 |
|
OpenAI 插件API说明 |
ChatGPT相关Github项目
类ChatGPT模型相关Github项目
模型名称 |
简介 |
项目地址 |
发布时间 |
GLM |
清华知识工程和数据挖掘组开源的一个通用语言模型,使用自回归填空目标进行预训练,并可以在各种自然语言理解和生成任务上进行微调。 |
2022-03-17 |
|
GLM-130B |
清华知识工程和数据挖掘组开源的一个开放的双语(英文和中文)双向稠密模型,具有1300亿个参数,使用通用语言模型(GLM)算法进行预训练。 |
2022-10-05 |
|
ChatGLM-6B |
清华知识工程和数据挖掘组开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 |
2023-03 |
|
LLaMA |
Facebook开源的用于加载LLaMA(arXiv)模型并运行推理的代码。 |
2023-02 |
|
Alpaca |
斯坦福开源的Alpaca 7B模型,一个在52K个指令跟随演示中从LLaMA 7B模型微调而来的模型。在对单轮指令跟随的初步评估中,Alpaca表现出与OpenAI的text-davinci-003相似的定性特征,同时其体积小、易于复制且成本低廉。 |
2023-03-13 |
|
OpenAI Evals |
OpenAI开源的ChatGPT相关模型的评测工具 |
2023-03 |
|
Visual ChatGPT |
微软开源的视觉ChatGPT,连接了ChatGPT和一系列视觉基础模型,使得在聊天过程中可以发送和接收图片。 |
2023-03-08 |
|
Dolly |
Databricks的Dolly是一个大型语言模型,它在Databricks机器学习平台上进行了训练。研究表明,当这个两年前的开源模型(GPT-J)仅经过30分钟的精细调整,并针对50,000条记录(斯坦福Alpaca)进行专注语料库训练时,其展现出惊人高质量的指令跟随行为,而这种行为并不是基于该模型构建的基础模型所具有的特征。我们认为这一发现非常重要,因为它证明了创造强大人工智能技术的能力比以前意识到的要容易得多。 |
2023-03-24 |
|
gpt4all |
gpt4all:一个聊天机器人,它是在包括代码、故事和对话等大量干净的助手数据集上进行训练的。 |
2023-03 |
|
CodeGeeX |
CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX采用华为MindSpore框架实现,在鹏城实验室“鹏城云脑II”中的192个节点(共1536个国产昇腾910 AI处理器)上训练而成。截至2022年6月22日,CodeGeeX历时两个月在20多种编程语言的代码语料库(>8500亿Token)上预训练得到。CodeGeeX有以下特点: ● 高精度代码生成:支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码,在HumanEval-X代码生成任务上取得47%~60%求解率,较其他开源基线模型有更佳的平均性能。 ● 跨语言代码翻译:支持代码片段在不同编程语言间进行自动翻译转换,翻译结果正确率高,在HumanEval-X代码翻译任务上超越了其它基线模型。 ● 自动编程插件:CodeGeeX插件现已上架VSCode插件市场(完全免费),用户可以通过其强大的少样本生成能力,自定义代码生成风格和能力,更好辅助代码编写。 ● 模型跨平台开源: 所有代码和模型权重开源开放,用作研究用途。CodeGeeX同时支持昇腾和英伟达平台,可在单张昇腾910或英伟达V100/A100上实现推理。 |
2023-03-30 |
|
LMFlow |
一个可扩展、方便和高效的工具箱,用于微调大型机器学习模型,旨在用户友好、快速可靠,并且对整个社区开放。 |
2023-04-02 |
|
DeepSpeed-Chat |
DeepSpeed Chat: 一键式RLHF训练,可以让类ChatGPT千亿大模型提速省钱15倍 |
https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/chinese |
2023-04-12 |
AutoGPT |
Auto-GPT是一个实验性的开源应用程序,展示了GPT-4语言模型的能力。这个程序由GPT-4驱动,将LLM“思想”链接在一起,以自主地实现您设定的任何目标。作为GPT-4完全自主运行的首批示例之一,Auto-GPT推动了人工智能可能性的界限。 |
2023-04-12 |
|
MiniGPT-4 |
MiniGPT-4:使用先进的大型语言模型增强视觉语言理解 |
2023-04-17 |
|
StableLM |
Stability AI发布了一个新的开源语言模型——StableLM。该模型的Alpha版本可用于30亿和70亿个参数,随后还将推出150亿到650亿个参数的模型。 |
2023-04-19 |
|
ImageBind |
ImageBind学习了六种不同模态的联合嵌入——图像、文本、音频、深度、热成像和IMU数据。它使得新颖的应用程序“开箱即用”,包括跨模态检索,使用算术组合模态,跨模态检测和生成等。 |
2023-05-09 |
ChatGPT产品相关Github项目
产品名称 |
简介 |
项目地址 |
OpenAI-translator |
基于 ChatGPT API 的划词翻译浏览器插件和跨平台桌面端应用 |
|
sql-translator |
一款基于人工智能的可以将自然语言转换为SQL的开源项目。 |
|
ChatGPT |
一款封装了ChatGPT网页的桌面版ChatGPT应用。 |
|
Chatgpt-web |
一款基于Express 和 Vue3 搭建的 ChatGPT 演示网页,可自定义配置OpenAI的API-key来搭建自己的私人ChatGPT。 |
|
Chatbox |
跨平台桌面应用程序,用于ChatGPT API(OpenAI API),同时也是一个Prompts调试和管理工具。 |
ChatGPT相关投研报告
ChatGPT相关产品
类ChatGPT产品
产品名称 |
产品介绍 |
去使用 |
文心一言 |
百度发布的一款类似于ChatGPT的产品。 |
|
New Bing |
微软发布的基于GPT-4的类似于ChatGPT的产品。 |
|
千问 |
达摩院发布的一款大语言模型产品 |
|
open-assistant |
开放助手(简称OA)是一个基于聊天的开源助手。该项目的愿景是创建一个可以在单个高端消费级GPU上运行的大型语言模型。通过一些修改,Open Assistant也应该能够轻松地与其他第三方应用程序进行接口,并从数据库和互联网中检索信息。 |
ChatGPT非官方产品
产品名称 |
产品介绍 |
官网地址 |
Poe |
一款集成了ChatGPT、GPT-4、Claude、Claude+、Sage、Dragonfly的聊天机器人hub |
类ChatGPT AI工具
产品工具名称 |
介绍 |
官网地址 |
BloopAI |
一款使用GPT-4和语义代码搜索来理解代码库的AI软件 |
|
Cursor |
一款基于GPT-4开发的进行辅助编程的软件。 |
|
OpenL |
一款基于OpenAI的翻译工具网站。支持15种常见语言,另外还提供了writer功能,可修正语法和润色文章。免费用户有20个额度 |
|
Browse AI |
一款预构建的网络爬虫机器人,可以在2分钟内构建机器人,无需写代码,帮你爬取需要的任何资源。 |
|
Hypotenuse AI |
一款基于AI的写作助手。 |
|
There's an ai for that |
一个收集了能完成很多任务的AI工具集合网站。 |
|
Durable AI Website Builder |
基于AI在30秒内构建一个网站。 |
|
Delv AI |
一款基于GPT-3的可以帮助从任何文本中进行总结的工具。 |
|
Perplexity AI |
一款旨在于替代Google的人工智能搜索引擎。 |
|
ChatPDF |
ChatPDF是与任何PDF快速、简便地聊天的方式,免费且无需登录。 |
|
ChatExcel |
通过文字聊天实现Excel的交互控制的AI辅助工具 |
|
ChatDoc |
一个基于ChatGPT的文件阅读助手,可以快速从PDF中提取、定位和总结信息。 |
|
Humata |
一个基于ChatGPT的文件理解助手 |
|
LLamaChat |
LlamaChat允许您与在Mac本地运行的LLaMa、Alpaca和GPT4All模型进行聊天。可直接下载LLama、Alpaca和GPT4All模型后直接进行使用。 |
多模态产品
产品名称 |
介绍 |
去使用 |
Midjourney |
AI绘画创作工具 |
|
Stable Diffusion |
一种潜在的文本到图像扩散模型,能够生成逼真的照片,只需输入任何文本即可。它培养了自主创作的自由,产生了令人惊叹的图像,并使数十亿人能够在几秒钟内创造出令人惊叹的艺术作品。 |