AI头条--OpenAI首席科学家的无监督学习理论--Aug-Week4-2023

1.大模型动态

1.1 直接压缩一切!OpenAI首席科学家的无监督学习理论

OpenAI 首席科学家 Ilya Sutskever 作了一次讲座分享,主要观点一句话总结就是我们可以通过压缩的视角来看待无监督学习。此外他还分享了不少其它有趣的见解。

  • 关于监督学习

    • 监督学习的优势在于能提供一个学习必定成功的精确数学条件。

    • 如果你有一些来自某数据分布的数据,并且你的训练数据足够多(多于数据分布的自由度),那么你的测试误差必定很低(前提是你能成功实现较低的训练损失)。

    • 有数学定理可以证明——“如果能在一类函数中找到能实现较低训练损失的函数,那么学习就必定成功”

  • 关于无监督学习

    • 无监督学习目前没有数学理论支撑,只能做一些直觉推断。

    • 无监督学习是什么——即模型在不被告知数据内容的前提下观察数据并发现其中存在的真实有用的隐藏结构。

    • 实验中观察到的现象,当数据量较小时,不会出现无监督学习现象。

    • 压缩就是一种预测,每个压缩器都可以转换为一个预测器,反之亦然。全体压缩器与全体预测器之间存在一一对应关系。

    • 压缩器越好,其能提取出的共有结构就越多。

image.png

基于Kolmogorov 压缩,提出了一种描述无监督学习的数学表达,并探讨了背后可能得数学理论.常规 Kolmogorov 压缩(无需以某个数据集为条件)是「以最好的可能方式使用」无标注数据。这就是无监督学习的解。

自回归模型在线性表征方面的表现优于 BERT。但目前人们还不清楚其中的缘由。

Ilya Sutskever 在处理向量时会丢弃一些像素 token,通过兼顾地考虑一点过去和一点未来,模型实际上能得到相当好的预测结果。这样一来就去除了所有困难任务,任务的难度就下降了很多。给出了自己的推测:BERT 在处理向量时会丢弃一些像素 token,通过兼顾地考虑一点过去和一点未来,模型实际上能得到相当好的预测结果。这样一来就去除了所有困难任务,任务的难度就下降了很多。

1.2 GPT-3.5 Turbo 对企业客户开放微调

GPT-3.5 Turbo 对企业客户开放微调。早期测试证明,GPT-3.5 Turbo 微调版本的能力在一些小范围任务上可以媲美甚至超越基础 GPT-4 模型。OpenAI 表示,此次微调 API 的传入和传出数据完全归客户所有,它自己或任何其他机构都不能使用这些数据来训练其他模型。这一做法保证了客户数据的安全性和隐私性。

1.3 文本描述创建短动画的全自动方法

CMU 和 Snap 研究人员构建根据文本描述创建短动画的全自动方法 Text2Cinemagraph,输入类似于“一条河流在山前向右流,使用「星空」风格”,即可生成高质量视频。

目前,现有的单图像动画方法在艺术输入方面存在问题。而最新的基于文本的视频方法经常会造成时间上的不一致,难以保持某些区域的静态状态。为了应对这些问题,研究人员提出了一种新的想法,即通过单个文本提示来合成”图像孪生”,即一对艺术图像及其像素对齐的现实图像。艺术图像展现了文本提示中描述的风格和外观细节,而现实图像则简化了布局和运动分析。通过利用现有的自然图像和视频数据集,Text2Cinemagraph能够准确地将现实图像分割,并根据语义信息预测合理的运动方式。随后,这些预测的运动可以应用到艺术图像中,从而创造出最终的电影动画效果。

image.png

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、写网络小说、写周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

AI技术行业动态头条-- UC伯克利发布了一个与GPT-4同级的模型——Vicuna v1.5-- Aug-Week3-2023

1.大模型产业动态

1.1 Vicuna1.5发布

基于Llama 2模型,UC伯克利发布了一个与GPT-4同级的模型——Vicuna v1.5。该模型支持4K和16K上下文长度,并在多数基准测试中表现出色,获得了SOTA的成绩。从3月发布至今,Vicuna已迅速成为顶级的聊天LLM之一,尤其在多模态、AI安全和评估方面展现了前沿的研究成果。上个月,该模型在Hugging Face平台上的下载量已突破200万次,且得到了著名学者LeCun的关注和分享。

用户可以通过特定命令从Hugging Face下载并使用该模型,同时还有关于命令行界面推理和内存不足处理的详细指南。需要注意,使用16K版本需要transformers版本不低于4.31。

目前,已有在线demo供大家体验。

1.2 ChatMini

智能设备:丹麦音响品牌 Vifa 将推搭载 ChatGPT 和文心一言的音箱 ChatMini,主打高情商陪伴畅聊。

  1. ChatMini 能联系上下文理解意图和生成更准确的答案;
  2. 可根据输入语音内容自动生成文本风格和内容,包括撰写诗歌、歌词、代码、文章等;同时拥有人格特征,具有更丰富的情感表达,能给用户带来更真实和亲近的体验。
  3. 售价 259 美金,合人民币 1800 元。

    感觉是华人创办的公司

1.3 小米发布新一代仿生机器人 CyberDog2

小米发布新一代仿生四足机器人 CyberDog 2

  1. 体重 8.9 kg,身高 36.7cm(vs 上一代重量减轻 40%,体积缩小 16%)。
  2. CyberDog 2 基于小米自研的微电机系统 CyberGear,重量 317 克,最大扭矩 12N.m;响应时间 20 ms,目前可以保持平衡,前后空翻,玩滑板等。
  3. 售价 12,999元。

2 大模型学术动态

2.1 一种高效的微调技术QLoRA

华盛顿大学的研究人员首次证明,在不损失模型性能的前提下,也可以微调量化的4位模型。

QLoRA的高效微调量化语言模型的方法。主要内容包括:

  1. QLoRA利用4bit(INF4)量化在单GPU上就可以微调65B参数模型,效果接近16比特精度。
  2. QLoRA通过一系列创新如4 Bit NormalFloat等来节省内存不损失性能。
  3. 基于QLoRA微调的Guanaco模型在Vicuna基准测试上超过其他开源模型,达到ChatGPT 99.3%的表现。
  4. 作者在8个指令数据集上微调了超过1000个模型,发现在小而高质量的数据集上QLoRA微调效果最好。

2.2 Meta 发布大语言评估模型- Shepherd(牧羊人)

目前开源社区的LLM,都是羊驼家族,为了让羊驼家族变得更好。Meta提出大语言评估模型- Shepherd(牧羊人)用于评估大模型的响应并提出改进建议。

  1. Shepherd的设计目标是仔细检查模型的回复,识别其中的问题,并提出改进的替代方案。
  2. 该工具使用了一个来自社区输入和人工注释的反馈数据集,通过与ChatGPT等突出的AI模型比较来展示其能力。
  3. 根据Meta的数据,Shepherd在与其他模型的互动中保持了53%到87%的令人印象深刻的成功率。

Shepherd的出现可能会推动AI工具的进一步发展,使其更加完善,提供更好的答案,甚至可能掌握了理解人类微妙之处的艺术。

2.3 研究表明GPT-4插件大幅增强模型能力

来自纽约大学和德克萨斯大学奥斯汀分校的Ernest Davis和Scott Aaronson发表了一篇关于测试GPT-4与Wolfram Alpha和Code Interpreter插件在数学和科学问题上的表现的论文。作者设计了包含105道测试问题的三个题集,内容涵盖中学和大学课程,对GPT-4与插件的问题解决能力进行了测试。
研究发现,与单独的GPT-4相比,结合插件后的GPT-4在这类问题上的表现有显著提升,但仍存在一定困难,无法100%准确可靠地解决所有问题。从整体上看,GPT-4与插件的表现可达到本科生中等水平,但其优势和劣势与人类学生存在差异。GPT-4能解决一些复杂的问题,但在某些简单问题上也会失败。
但是,GPT-4与插件之间尤其是与Wolfram Alpha之间的接口仍需改进,GPT-4常难以将问题转换为插件可以处理的形式。此外,GPT-4没有充分利用插件的专业计算能力,没有将一些计算工作完全委托给插件,导致了一些可避免的错误。GPT-4在需要空间思维的问题和组合多种计算的问题上较弱,也难以处理极值。

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、写网络小说、写周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

AI头条-- Mistral AI开源MoE 8x7B --Dec-Week2-2023

Mistral AI开源MoE 8x7B

Mistral AI于社交平台X发布开源模型MoE 8x7B,提供了一个87G种子文件链接。MoE 8x7B使用了与 GPT-4 非常相似的架构,但是「缩小版」:采用基于decoder-only架构的稀疏专家混合网络,8 个专家,而不是16个 ;46.7B 总参数而不是 1.8T;实际执行速度和所需的成本都只相当于一个 12.9B 的模型。MoE 8x7B支持英、法、意大利、德语和西班牙语,支持与原始 GPT-4 相同的 32K 上下文。

团队自豪地发布了Mixtral 8x7B,这是一个高质量的稀疏专家混合模型(SMoE),具有开放权重。根据Apache 2.0许可。Mixtral在大多数基准测试中比Llama 2 70B表现更好,推理速度提升了6倍。它是具有宽松许可证的最强大的开放权重模型,也是在成本/性能权衡方面最好的模型。特别是,在大多数标准基准测试中,它与GPT3.5相匹配或表现更好。

image.png

image.png

image.png

测评结果表明,Mixtral 8x7B已达到甚至超越了Llama 2 70B和GPT-3.5的水平。目前Mistral官方已宣布上线API服务,不过仍然是邀请制。值得注意的是,API分为三个版本,此次公布的MoE 8x7B算是小号(Mistral-small),还有更大的版本Mistral-medium,对应模型尚未公布。

谷歌推出Gemini家族大模型

谷歌推出了名为Gemini的AI模型,它是他们迄今为止最强大和通用的模型,能够跨多种信息类型进行理解和操作。Gemini在多个领域的性能超越了现有的模型,并具有先进的多模态推理能力,可以应用于复杂的任务,如文本理解、图像识别和编程等。谷歌将逐步在其产品和平台中推出Gemini,以帮助人们更好地利用AI技术。
image.png

谷歌宣称Gemini 比 GPT4 还要强。但是被证明宣传材料有所作假。
根据社交媒体的测试发现,谷歌中文采用了百度文心一言的数据。
image.png

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

AI技术行业动态头条 -- Jul-Week2-2023

Meta开源LLaMA2,免费可商用,各项得分远超第一代LLaMA,一夜之间大模型格局改变!

一直以来 LLaMA 可以说是 AI 社区内最强大的开源大模型。但因为开源协议问题,一直不可免费商用。

Meta 终于发布了大家期待已久的免费可商用版本 LLaMA2。
LLaMA2简介

  • LLaMA2模型系列包含 70 亿、130 亿和 700 亿三种参数变体。此外还训练了 340 亿参数变体,但并没有发布,只在技术报告中提到了。
  • 在超过2万亿tokens数据集上训练。官方对齐微调的结果称为LLaMA2-Chat系列,专门针对场景优化。
  • LLaMA2-Chat模型在微软测试的大多数基准测试中胜过开源聊天模型。
  • 和LLaMA1相比:
    • Llama 2 模型接受了 2 万亿个tokens的训练(1T -> 2T),上下文长度是 Llama 1 的两倍(2k -> 4k)。
    • Llama-2-chat 模型还接受了超过 100 万个新的人类注释的训练。
    • Llama 2训练语料相比LLaMA多出40%。
    • 使用分组查询注意力 (GQA) 来提高更大模型的推理可扩展性。
      GQA

LLaMA2的训练信息:

  • LLaMA2的训练时间为2023年1月至2023年7月。且是一个纯文本模型,仅接受文本输入和文本的输出。
  • 预训练过程中,Meta估计使用了总计33万GPU小时的计算,硬件类型为A100-80GB(功耗为350-400W)。

LLaMA2模型架构:

  • LLaMA2是一种优化的自回归语言模型。
  • 微调版本使用监督微调(SFT)和人工反馈强化学习(RLHF)来对齐人类对实用性和安全性的偏好。
    LLaMA2

LLaMA2训练数据:

  • LLaMA2是在来自公开可用来源的2万亿tokens数据上进行的预训练。
  • 微调数据包括公开可用的指令数据集,以及超过100万个新的人工注释示例。
  • 预训练和微调数据集均不包含Meta用户数据。
  • 预训练数据的截止日期为2022年9月,但某些微调数据更近,最新的可达到2023年7月。

LLaMA2的评估结果:

  • Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。
  • LLaMA2 70B 与 GPT3.5 在各类主流测评中得分相差很小,仅次于 GPT4 和 PaLM2 两个顶级大模型,LLaMA 2 与 GPT3.5 的 差距主要在编程能力。
  • Llama 2 中的训练数据中90%是英文,这意味着其在英语用例中表现最佳;另有9%的未知类别大部分由编程代码数据组成。

LLaMA2开源的影响:

  • 开源社区中,LLaMA2 的优化版本层出不穷

    截至 7 月 22 日,Hugging face 社区名称中包含 LLaMA2 的大模型已经超过 400 个,其中包含众多极具特色的版本,如能够在 AMD 5600X 本地运行的 LLaMA2 7B GGML 等。(https://huggingface.co/models?other=llama-2)

  • LLaMA 2 有望联合科技巨头建立强大开源生态。

    微软和 Meta 公司通过 Azure 和 Windows 平台上的 Llama 2 扩展其人工智能合作伙伴关系。

    高通和Meta正在合作优化Meta Llama 2大语言模型直接在终端侧的执行, 无需仅依赖云服务。

    AWS 上线 LLaMA 2 并提供 SageMaker JumpStart(AWS提供给用户的快速构建、训练并部署模型的服务)相关功能。

  • 全球AI开发者再度迎来模型平权的黄金时点。

    开源社区正在较大幅度降低大模型的开发成本;开源社区的开发浪潮会让具备基础能力的大模型普及化,以后用户可能会非常便宜地使用私有化大模型。

链接论文| 开源地址 | HuggingFace| 项目主页| 技术报告

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、写网络小说、写周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

AI头条-- 阿里云推出AI Agent 开发框架 --Sep-Week1-2023

1.大模型动态

1.1 阿里云推出适配开源大模型的 AI Agent 开发框架 ModelScope-Agent

阿里云 旗下的AI 模型社区魔搭(ModelScope)推出适配开源大模型的AI Agent 开发框架 ModelScope-Agent。此前,魔搭已用该框架搭建了 ModeScopeGPT,通过自然语言与用户交互、接受用户指令,通过通义千问调用社区众多的API,自主完成人类布置的任务。ModeScopeGPT 调用量已超 25 万。

image.png

ModelScope-Agent是一个通用的、可定制的Agent框架,用于实际应用程序,其基于开源的大语言模型 (LLMs) 作为核心。它提供了一个用户友好的系统库, 具有以下特点:

  • 可定制且功能全面的框架:提供可定制的引擎设计,涵盖了数据收集、工具检索、工具注册、存储管理、定制模型训练和实际应用等功能,可用于快速实现实际场景中的应用。
  • 开源LLMs作为核心组件:支持在 ModelScope 社区的多个开源LLMs上进行模型训练。
  • 多样化且全面的API:以统一的方式实现与模型API和常见的功能API的无缝集成。

1.2 OpenAI发布教师使用ChatGPT指南

OpenAI 发布 ChatGPT 课堂教学使用指南,包括提示词建议、实际用例、技术原理、局限性和偏见。

  • 角色扮演挑战性的对话: Dr. Helen Crompton建议学生使用ChatGPT作为特定角色,如辩论伙伴、招聘者或新上司,以帮助学生更深入地理解材料。

  • 从课程材料中创建测验、测试和教学计划: Fran Bellas建议教师使用ChatGPT作为助手来制定测验、考试和课程计划。

  • 为非英语说话者减少摩擦: Dr. Anthony Kaziboni鼓励他的学生使用ChatGPT进行翻译帮助,提高他们的英语写作能力,并进行对话练习。

  • 教学生关于批判性思维: Geetha Venugopal建议学生批判性地思考ChatGPT给出的答案,并通过其他主要资源确认信息。

  • 开始使用的示例提示: Ethan Mollick和Lilach Mollick提供了一些教育者可以使用的提示,如制定教学计划、创建有效的解释、示例和类比,以及帮助学生通过教学学习。

    image.png

1.3 Falcon1800 亿参数大模型开源

阿布扎比全球领先技术研究中心 TII 开源 1800 亿参数大模型 Falcon。其为 Falcon 40B 的升级版本,在超过 3.5 万亿 Tokens 的 RefinedWeb 数据集上训练(大约占85%)。Falcon 在 Huggingface 开源大模型榜单上评分已超过 Llama 2,排名第一,可免费商用。同时 TII 还发布了聊天对话模型Falcon-180B-Chat。(Huggingface blog新智元

从表现能力上来看,Falcon 180B 在自然语言任务上的表现十分优秀。它在开源模型排行榜 (预训练) 上名列前茅,并可与 PaLM-2 等专有模型相差无几。虽然目前还很难给出明确的排名,但它被认为与 PaLM-2 Large 不相上下,这也使得它成为目前公开的能力最强的 LLM 之一。

从架构维度来看,Falcon 180B 是 Falcon 40B 的升级版本,并在其基础上进行了创新,比如利用 Multi-Query Attention 等来提高模型的可扩展性。可以通过回顾 Falcon 40B 的博客 Falcon 40B 来了解其架构。Falcon 180B 是使用 Amazon SageMaker 在多达 4096 个 GPU 上同时对 3.5 万亿个 token 进行训练,总共花费了约 7,000,000 个 GPU 计算时, Falcon 180B 的规模是 Llama 2 的 2.5 倍,而训练所需的计算量是 Llama 2 的 4 倍。

image.png

1.4 ChatGPT Plus 上线一系列有用插件

  • ChatGPT Plus 上线 Canva 插件,使用户能够高效的通过输入文本创建海报、横幅、表格等内容,并用于社交媒体发布、出版材料等。
    image.png

image.png

直接要求插件帮你画各种图,以下示例画了5个公司组织架构图
image.png
你可以选择其中你喜欢的风格来编辑
image.png

  • ChatGPT Plus 上线论文搜索神器插件 Consensus,可通过提问方式获得相关论文及链接,且幻觉问题被较好解决。

1.5 340 亿参数的 Code LLama 可在苹果电脑上运行啦

llama.cpp 作者 Georgi Gerganov 使用 推测执行(speculative sampling/decoding)推理优化方法,不量化、用 FP16 精度让 340 亿参数的 Code LLama 可在苹果电脑上运行,推理速度超过每秒 20 Token。
LLMs的推测执行是一种优化方法,通过批处理和草稿模型的使用,可以加快推理时间。这是因为LLMs在推理时受到内存限制,并且大多数令牌都很容易处理。这种方法在实践中有效,可以大幅提高模型的速度。
image.png

speculative sampling/decoding 论文摘要

像Transformers这样的大型自回归模型的推断是缓慢的 - 解码K个令牌需要K次模型的连续运行。在这项工作中,我们引入了推测性解码 - 一种更快地从自回归模型中采样的算法,无需更改输出,可以并行计算多个令牌。我们方法的核心是以下观察:(1) 困难的语言建模任务通常包括可以由更高效的模型很好地近似的更简单的子任务,以及 (2) 使用推测性执行和一种新的采样方法,我们可以通过并行运行大型模型在近似模型的输出上,可能同时生成多个令牌,而不改变分布,从而使精确解码更快。我们的方法可以加速现有的即用型模型,无需重新训练或更改架构。我们在T5-XXL上展示了它,并显示与标准T5X实现相比,它有2X-3X的加速,输出相同。

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、写网络小说、写周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

智写AI PC站支持上传文件,和文件对话聊天了。支持的格式包括TXT、PDF、Word等等,最多支持一次性上传5个文件,每个最多5MB。
这样一来,你就可以让AI帮你总结文章内容,帮你读论文,帮你理解各种公文文件。大幅提升您的学习、办公效率!

AI头条-- 开源代码解释器让ChatGPT更智能 --Sep-Week2-2023

1.大模型动态

1.1 开源代码解释器让ChatGPT更智能

开源代码解释器 Open Interpreter 可在本地环境中运行,可以访问互联网,对文件大小和运行时间没有限制,并且可以利用任何包或库。在调用 GPT-4 API 时,Open Interpreter 可以让 GPT-4 在本地环境(或在 Google Colab)中执行 Python 代码。借助 Open Interpreter,用户仅使用自然语言就能操控计算机完成各种任务,包括摘要总结 PDF,可视化数据集,控制浏览器。与OpenAI的Code Interpreter相比,Open Interpreter在本地环境上运行,具有更多的灵活性和功能,可以访问互联网、不受时间或文件大小限制,并且可以使用任何包或库。

image.png

1.2 Medusa:美杜莎–一个全新的简单多头加速框架

普林斯顿、UIUC等机构提出简单框架 Medusa,通过训练多个解码头,可 LLM 推理速度翻倍。通过Medusa的优化,33B参数的Vicuna模型可以像13B模型一样迅速运行。

Karpathy曾多次提出,大模型「推测生成」对于推理时间优化是一个出色的方案,能够加速生成速度。由于推测生成其太过复杂,并没有被许多开发者采用。自普林斯顿、UIUC等机构的华人团队提出了全新的框架:Medusa(美杜莎)

image.png

Medusa是一个简单的框架,通过多个解码头来加速LLM生成。它通过添加额外的“头”到LLM中,同时预测多个未来的标记。在训练期间,只有新的解码头会进行微调,原始模型保持不变。在生成过程中,这些解码头为每个位置产生多个可能的单词选项,并使用基于树的注意机制进行组合和处理。最后,使用典型的接受方案从候选项中选择最长的可行前缀进行进一步解码。

Medusa的目标是通过实现以下想法来解决与推测解码相关的挑战:不引入新的模型,而是在同一模型上训练多个解码头;训练过程对参数非常高效,即使是“GPU贫穷”的设备也可以进行;放宽对原始模型分布匹配的要求,使得非贪婪生成比贪婪解码更快。

在初始版本中,Medusa主要针对批量大小为1的情况进行了优化,并在一系列Vicuna模型上实现了大约2倍的速度提升。他们正在积极努力将Medusa整合到其他推理框架中,以实现更大的性能提升和扩展到更广泛的设置。

1.3 Meta 正在加紧开发新的大语言模型

据报道,Meta 正在加紧开发新的大语言模型,比两个月前发布的Llama 2模型更强大几倍,能力完全对标 GPT-4,预计将于明年推出。新的大语言模型将比 Llama 2 大数倍,而且大概率还是会开源,支持免费商用。开源模型也存在一些潜在的风险和问题,包括版权保护和滥用强大功能的可能性。

image.png

1.4 Google 提出一种优化方法 OPRO

Google DeepMind 提出一种优化方法 OPRO(Optimization by PROmpting),用自然语言来描述优化任务。在每个优化步骤中,LLM 以前一步生成的解决方案及其分数作为提示,生成新的解决方案;然后对新解决方案进行评估,并将其添加到下一个优化步骤的提示中。
研究者对多个 LLM 进行了综合评估,包括 PaLM-2 模型家族中的 text-bison 和 Palm 2-L,以及 GPT 模型家族中的 gpt-3.5-turbo 和 gpt-4 。实验在 GSM8K 和 Big-Bench Hard 上对提示进行了优化,结果表明经过 OPRO 优化的最佳提示在 GSM8K 上比人工设计的提示高出 8%,在 Big-Bench Hard 任务上比人工设计的提示高出高达 50%

image.png

  • OPRO通过在每个优化步骤中生成新的解,并对其进行评估和添加到提示中来实现优化任务 👏
  • OPRO在线性回归和旅行商问题上展示了其应用价值 🌟
  • OPRO还可用于优化提示,目标是找到最大化任务准确性的指令 💪
  • OPRO优化得到的最佳提示在GSM8K上比人工设计的提示提高了8%,在Big-Bench Hard任务上提高了50% 📈

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、写网络小说、写周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

智写AI PC站支持上传文件,和文件对话聊天了。支持的格式包括TXT、PDF、Word等等,最多支持一次性上传5个文件,每个最多5MB。

这样一来,你就可以让AI帮你总结文章内容,帮你读论文,帮你理解各种公文文件。大幅提升您的学习、办公效率!

AI技术行业动态头条 -- Aug-Week1-2023

DeepMind 推出全球首个控制机器人的视觉-语言-动作(VLA)模型 RT-2

RT-2 相当于机器人版 ChatGPT,结合思维链推理,可执行多阶段语义推理。RT-2 基于网络和机器人数据训练,利用 Bard 等 LLM 研究进展,并与机器人数据结合,还可以理解英语以外的指令。该工作建立在Robotic Transformer 1(RT-1)基础上,保留了机器人在原始任务上的性能,并将机器人在未见过场景中的性能提高到 62%(RT-1 为 32% )。

谷歌 Research 和 DeepMind 共同发布多模态生成模型 Med-PaLM M,是首个全科医疗大模型

该模型基于谷歌自建的多模态医学测试基准 MultiMedBench 进行指令微调,在 14 项测试任务中均接近或超过现有 SOTA(前提是所有任务都使用一组相同的模型权重).

  • 原文摘要

    Medicine is inherently multimodal, with rich data modalities spanning text, imaging, genomics, and more. Generalist biomedical artificial intelligence (AI) systems that flexibly encode, integrate, and interpret this data at scale can potentially enable impactful applications ranging from scientific discovery to care delivery. To enable the development of these models, we first curate MultiMedBench, a new multimodal biomedical benchmark. MultiMedBench encompasses 14 diverse tasks such as medical question answering, mammography and dermatology image interpretation, radiology report generation and summarization, and genomic variant calling. We then introduce Med-PaLM Multimodal (Med-PaLM M), our proof of concept for a generalist biomedical AI system. Med-PaLM M is a large multimodal generative model that flexibly encodes and interprets biomedical data including clinical language, imaging, and genomics with the same set of model weights. Med-PaLM M reaches performance competitive with or exceeding the state of the art on all MultiMedBench tasks, often surpassing specialist models by a wide margin. We also report examples of zero-shot generalization to novel medical concepts and tasks, positive transfer learning across tasks, and emergent zero-shot medical reasoning. To further probe the capabilities and limitations of Med-PaLM M, we conduct a radiologist evaluation of model-generated (and human) chest X-ray reports and observe encouraging performance across model scales. In a side-by-side ranking on 246 retrospective chest X-rays, clinicians express a pairwise preference for Med-PaLM M reports over those produced by radiologists in up to 40.50% of cases, suggesting potential clinical utility. While considerable work is needed to validate these models in real-world use cases, our results represent a milestone towards the development of generalist biomedical AI systems.

  • 文章摘要翻译如下:

医学本质上是多模态的,拥有丰富的文本、图像、基因组等多种数据模态。能够在大规模上灵活编码、整合和解释这些数据的通用生物医学人工智能系统,潜在地可以支持从科学发现到医疗照护等范围广泛的高影响力应用。为了推动这类模型的开发,我们首先整理了一个新的多模态生物医学基准测试集MultiMedBench。MultiMedBench涵盖了14项各异的任务,如医学问答、乳腺X光和皮肤病图片解释、放射科报告生成和总结,以及基因组变异检测等。然后,我们提出了Med-PaLM多模态系统(Med-PaLM M)作为通用生物医学AI系统的概念验证。Med-PaLM M是一个大规模的多模态生成模型,可以用单一模型权重灵活地对包含临床语言、医学图像和基因组在内的多种生物医学数据进行编码和解释。在MultiMedBench的所有任务上,Med-PaLM M都达到了竞争或超过当前状态的表现,并且通常大幅超过专业模型。我们还报告了对新医学概念和任务的零示例泛化、任务间的正向迁移学习和新兴的零示例医学推理等。为进一步探究Med-PaLM M的能力和局限性,我们进行了放射科医生对模型生成(和人类)胸部X光报告的评估,并观察到了不同模型规模下的可喜表现。在246例回顾性胸部X光的并排排名中,临床医生表达了在高达40.50%的情况下更偏好Med-PaLM M的报告而不是放射科医生的报告,这表明潜在的临床价值。尽管还需要大量工作来验证这些模型在真实使用案例中的表现,但我们的结果代表了发展通用生物医学AI系统的一个重要里程碑。

亚马逊推出七项生成式AI新功能

AWS表示,借助这些新功能,来自千行百业的企业都能更专注于核心业务,提高生产效率,充分释放数据价值和生成式 AI 的潜力。

  1. 全托管基础模型服务 Amazon Bedrock:新增基础模型供应商 Cohere ,加入 Anthropic(Claude 2 模型) 和 Stability AI 全新基础模型,以及全新代理(Agents)功能,助力基础模型完成复杂任务(如更新订单或管理交易);
  2. Amazon Elastic Compute Cloud (Amazon EC2) P5 实例正式可用,搭载 NVIDIA H100 GPU,满足高性能需求,减少训练成本,加速生成式 AI 和高性能计算应用;(
  3. 编程助手 Amazon CodeWhisperer 与 Amazon Glue 实现集成;
  4. Amazon OpenSearch Serverless 支持全新向量引擎;
  5. Amazon QuickSight 新增生成式 BI 功能,将可创建可视化图表、使用自然语言微调和格式化图表效果、使用自然语言创建计算任务(该功能暂未上线);
  6. 分析服务 Amazon Entity Resolution 正式可用,可帮助企业分析、匹配和关联存储在不同应用程序、不同数据存储中的记录,帮助企业提升数据质量,获取客户洞察
  7. 智慧医疗新服务 Amazon HealthScribe ,支持创建记录、提取关键信息、摘要等功能,助力提升医疗行业生产效率。

AIGC 对话数据集

哥伦比亚大学联合Salesforce贡献了一个的统一的对话数据集 DialogStudio。DialogStudio 涵盖开放域对话(Open-domain dialogues)、任务导向的对话(Task-oriented dialogues)、自然语言理解(Natural language understanding)、对话式推荐(Conversational recommendation)、对话摘要(Dialogue summarization)与知识驱动的对话(Knowledge-grounded dialogues)等多个领域的数据,包含近 80 个子数据集。覆盖领域包含餐饮、电影、航空、金融、媒体等众多与日常生活相关的对话数据。如下图左可以看到,DialogStudio 几乎支持对话领域的所有任务,可以极大的帮助对话领域模型与大规模语言预训练模型的研究工作。

AI Agent-MetaGPT

深度赋智创发布 MetaGPT 项目,目前星标 8.6k。MetaGPT 将所有代码写成项目的过程进行了「流水线生产」,过程中基本不需要人再进行操作,能够初步实现一句话自动编写一个比较简单的软件项目

这个项目的目标是让像GPT-4这样的大模型们自己组建一个软件公司,不仅能实现公司自动更新,就连公司里面的员工也全部换成大模型。换而言之,从老板到产品经理、架构师、项目经理和工程师,设计产品到写代码的活儿全部由GPT-4等一众LLM实现。

完成一个项目的费用(调用大模型API的费用),只需要几美元。
MetaGPT目前已经能实现一句话自动编写一个比较简单的软件项目。

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

AI技术行业动态头条-- 英伟达发布GH200超级芯片-- Aug-Week2-2023

1.大模型产业动态

1.1 英伟达在SIGGRAPH发布一系列产品更新

1.1.1 英伟达最强AI超算再升级——下一代GH200超级芯片平台

NVIDIA GH200 Grace Hopper将配备更加先进的HBM3e内存,要比当前的HBM3快了50%,10TB/s的带宽,也使得新平台可以运行比上一版本大3.5倍的模型,同时通过3倍更快的内存带宽提高性能。下一代GH200超级芯片平台由72核Grace CPU和4PFLOPS Hopper GPU组成,内存容量高达141GB,提供每秒10TB的带宽。其每个GPU的容量达到NVIDIA H100 GPU的1.7倍,带宽达到H100的1.55倍。将具有连接多个GPU的能力,从而实现卓越的性能和易于扩展的服务器设计。

这个拥有多种配置的全新平台,将能够处理世界上最复杂的生成式工作负载,包括大语言模型、推荐系统和向量数据库等等。

1.1.2 RTX工作站一口气推出了3款新品:RTX 5000、RTX 4500和RTX 4000

针对企业客户,皮衣老黄还准备一套一站式解决方案—— RTX Workstation。

支持最多4张RTX 6000 GPU,可以在15小时内完成8.6亿token的GPT3-40B的微调。

还能让Stable Diffusion XL每分钟生成40张图片,比4090快5倍。

1.1.3 AI Workbench:加速定制生成式AI应用

发布了全新的NVIDIA AI Workbench,来帮助开发和部署生成式AI模型。

AI Workbench为开发者提供了一个统一且易于使用的工具包,能够快速在PC或工作站上创建、测试和微调模型,并无缝扩展到几乎任何数据中心、公有云或NVIDIA DGX Cloud上。

1.2 AI Agent大进展:斯坦福 Smallville 虚拟小镇正式开源

斯坦福关于AI Agent的著名论文《Generative Agents: Interactive Simulacra of Human Behavior
》的代码正式开源。Smallville 虚拟小镇正式开源,研究者们成功地构建了一个名为 Smallville 的虚拟小镇,25 个 AI 智能体在小镇上生活,他们有工作,会八卦,能组织社交,结交新朋友,甚至举办情人节派对,每个「小镇居民」都有独特的个性和背景故事。

这个开源项目它包含了我们用于生成代理的核心模拟模块——模拟可信人类行为的计算代理——以及它们的游戏环境。以下是在本地机器上设置模拟环境并回放模拟作为演示动画的步骤。

2.大模型学术动态

2.1 ACM SIGKDD 2023

KDD 2023 大会在美国加州长滩举办,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议。

  • 来自香港中文大学的研究者获得了研究方向最佳论文奖,研究了在图领域中关于 prompting 的主题,旨在弥合预训练模型与各种图任务之间的差距,提出了一种新颖的用于图模型的多任务 prompting 方法;

  • 来自谷歌的研究者获得了应用数据科学方向最佳论文奖,指出了导致模型训练不稳定的一些特性,并对其原因进行了推测。更进一步的,基于对训练不稳定点附近训练动态的观察,研究者假设了现有解决方案失败的原因,并提出了一种新的算法来减轻现有解决方案的局限性;

2.2 其他研究

2.2.1 Soft Moe

​研究:关于低成本下的模型扩展针对计算成本较小且需要扩展模型大小的情况,Google DeepMind 的研究团队提出了“Soft MoE”新方法,解决稀疏混合专家架构(MoEs)训练不稳定、标记丢失、无法扩展专家数量或微调效果不佳的问题:模型大小在一定程度上被认为是影响模型性能的关键因素之一。通常,对于 Transformer 模型,模型越大,性能越好,同时计算成本增加。近期有研究表明,模型大小和训练数据必须一起扩展,才能最佳发挥效果。稀疏混合专家架构(MoEs)作为一种替代方案可以在不增加大量训练或推理成本的情况下扩展模型容量,但存在训练不稳定、标记丢失、无法扩展专家数量或微调效果不佳等问题。Google DeepMind 的研究团队提出Soft MoE,是完全可微分的稀疏Transformer,解决以上问题。

原文摘要:

Sparse mixture of expert architectures (MoEs) scale model capacity without large increases in trainingor inference costs. Despite their success, MoEs suffer from a number of issues: training instability, tokendropping, inability to scale the number of experts, or ineffective finetuning. In this work, we proposeSoft MoE, a fully-differentiable sparse Transformer that addresses these challenges, while maintaining thebenefits of MoEs. Soft MoE performs an implicit soft assignment by passing different weighted combinationsof all input tokens to each expert. As in other MoE works, experts in Soft MoE only process a subset ofthe (combined) tokens, enabling larger model capacity at lower inference cost. In the context of visualrecognition, Soft MoE greatly outperforms standard Transformers (ViTs) and popular MoE variants (TokensChoice and Experts Choice). For example, Soft MoE-Base/16 requires 10.5× lower inference cost (5.7×lower wall-clock time) than ViT-Huge/14 while matching its performance after similar training. Soft MoEalso scales well: Soft MoE Huge/14 with 128 experts in 16 MoE layers has over 40× more parameters thanViT Huge/14, while inference time cost grows by only 2%, and it performs substantially better.

2.2.2 AI Agent语言交互拓展

UC伯克利的研究人员提出从在线经验中学习语言和图像的多模态世界模型Dynalang,以及利用该模型学习如何行动的智能体:为了与人类互动并在世界中行动,智能体需要理解人们使用的语言范围,并将其与视觉世界联系起来。与仅使用语言预测行动的传统智能体不同,Dynalang通过使用过去的语言来预测未来的语言、视频和奖励,从而获得了丰富的语言理解。除了在环境中进行在线交互学习外,Dynalang还可以在没有行动或奖励的情况下预先训练文本、视频或两者的数据集。

原文摘要:

To interact with humans and act in the world, agents need to understand the range of language that people use and relate it to the visual world. While current agents learn to execute simple language instructions from task rewards, we aim to build agents that leverage diverse language that conveys general knowledge, describes the state of the world, provides interactive feedback, and more. Our key idea is that language helps agents predict the future: what will be observed, how the world will behave, and which situations will be rewarded. This perspective unifies language understanding with future prediction as a powerful self-supervised learning objective. We present Dynalang, an agent that learns a multimodal world model to predict future text and image representations and learns to act from imagined model rollouts. Unlike traditional agents that use language only to predict actions, Dynalang acquires rich language understanding by using past language also to predict future language, video, and rewards. In addition to learning from online interaction in an environment, Dynalang can be pretrained on datasets of text, video, or both without actions or rewards. From using language hints in grid worlds to navigating photorealistic scans of homes, Dynalang utilizes diverse types of language to improve task performance, including environment descriptions, game rules, and instructions.

2.2.3 清华与微软提出了一种全新「思维骨架」(SoT),大大减少了LLM回答的延迟

清华与微软合作提出了一种全新“思维骨架”(SoT),大大减少了LLM回答的延迟,并提升了回答的质量:由于当前先进的LLM采用了顺序解码方式,即一次生成一个词语或短语。然而,这种顺序解码可能花费较长生成时间,特别是在处理复杂任务时,会增加系统的延迟。受人类思考和写作过程的启发,来自清华微软的研究人员提出了「思维骨架」(SoT),以减少大模型的端到端的生成延迟。

原文摘要:

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose “Skeleton-of-Thought” (SoT), which guides LLMs to first generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-up (up to 2.39× across 11 different LLMs), but it can also potentially improve the answer quality on several question categories in terms of diversity and relevance. SoT is an initial attempt at data-centric optimization for efficiency, and reveal the potential of pushing LLMs to think more like a human for answer quality

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、写网络小说、写周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。

AI头条-- MidJourney 发布V6 --Dec-Week3-2023

1. midjourney 生成

最近使用 Midjourney v6 创作了一系列游戏元素图像,其细节之精美令人叹为观止。相较于 v5.2,它在真实感上有了质的飞跃。以下是我提供的 10 个版本之间的对比,其中包括使用的指令以及如何将这些图像转化为 3D 物体的方法:

A highly detailed 3D render of [需要生成的物品] isolated on a white background as an RPG game asset, unreal engine, ray tracing –ar 3:2 –v 6.0

在纯白背景下对 [对象] 进行高度精细的 3D 渲染,使其成为 RPG 游戏中的资产,这一过程中采用了虚幻引擎和光线追踪技术。

首先,让我们通过一些对比图来看看 v6 与 v5.2 在细节处理上的不同。
上图是5.2版本,下图是6.0版本。可以明显看到6.0版本细节非常充分。

  1. 松林



3.石屋

  1. 火山

  2. 船长

  3. 水晶

3D建模

那么问题来了,怎么将2D图像变成3D的物体呢?只需要登录
https://3d.csm.ai/
然后上传你的图片建模即可。

接下来,你会有机会生成自己的 3D 模型。如果你正在使用免费版本,这个渲染过程可能需要 1 至 2 小时。这是一些渲染结果。虽然还有很多提升的潜力,但已经是一个很好的开始。如果你想,你还可以把这个模型导出。

除了令人印象深刻的逼真度外,Midjourney v6 在图像创作上确实有自己的风格。并不是所有游戏都需要极端的真实感。要实现这种效果,你需要修改输入的提示词。还可以试着调整 raw 和 stylize 这些参数来获得不同的效果。

使用 3D CSM 是将图像转化为 3D 对象最直接的方式。尽管它的质量并非最佳,但他们提供了更高级的模型,只不过需要付费计划。总的来说,对这项技术未来的发展感到非常兴奋。听说 MJ 未来会开发更多的 3D 功能。

智写AI介绍

智写AI是免费万能的ai写作聊天机器人。ai免费帮你写作文、写论文、写材料、写文案、周报月报、公务员材料、行政报告、写英语作文、写小说剧本、写短视频脚本、写营销文案等等,还能写代码。它能教你python、java、C#、C、javscript、Golang编程、系统架构设计、系统开发。它还能教你简历制作、简历模版,给你做心理咨询、给你讲故事、陪你玩文字游戏等。