谷歌最新大模型 Gemini 相关资料整理

目录索引

▶︎
all
running...

1 谷歌最新最强大模型 Gemini 来了

【观看视频解说】

2023年12月7日,谷歌介绍了其即将发布的最新,最强的,多模态大模型。
此模型,在很多指标上都超过了OpenAI的GPT-4。

查看下面的视频,来看看Gemini有多牛吧:
https://youtu.be/cno5CsQMcig

谷歌的原视频:
https://www.youtube.com/watch?v=UIZAiXYceBI&t=8s

Gemini例子中多模态提示词相关介绍:
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

谷歌Gemini视频中展现了什么能力?

2 谷歌Gemini演示视频被质疑造假

谷歌的大模型Gemini发布后,马上受到了多方的质疑,称其演示视频造假。

详情,请观看下面视频:
https://youtu.be/SiovmuMpGmU

3 从谷歌博客文章看 Gemini 有什么?

谷歌于12月7日发布了其最新的大模型Gemini,同时官方也发了一篇博客文章来介绍这个模型。
这篇文章为你划划这篇文章的重点,让你快速了解Gemini都有什么料。

原文如下:
https://blog.google/technology/ai/google-gemini-ai/#sundar-note

要点:

0. 看领导吹牛:
最前面是领导吹牛B,我们码农很忙,就不看了。

1. 性能最强:

2. 灵感来源:

3. 三个版本:

4. 多种任务中最好性能:32个中30个超过GPT-4(Gemini Ultra)

5. 多种任务的语言理解上超越人类专家:

文本任务上的结果:

6. 多模态任务的MMMU测试中,超越GPT-4V
图像任务上超越GPT-4V,并且可以直接理解图像中的文本,不需要OCR。

多模态任务上的结果:

7. 原生多模式支持:

8. API开放:
12月13日开始提供API。
Ultra版明年开放。

GPT有的,他也有,并且还更强:

4 笔记:谷歌 Gemini 模型技术报告

阅读报告时写的笔记,里面还夹杂了我个人对于模型实现的一些推测,最后还有一个小小的读后感。

相关视频:
从技术报告看谷歌视频有多假:
https://youtu.be/M8r8bH8IiqM
谷歌视频被质疑造假:
https://youtu.be/SiovmuMpGmU
谷歌Gemini发布,看看有多牛:
https://youtu.be/cno5CsQMcig

摘要部分

  1. 多模态模型: a new family of multimodal models,可以理解 image,audio,video,text。
  2. 有三个不同size的版本:Ultra, Pro, and Nano
  3. 性能刷榜:Gemini Ultra模型在32个数据集上取得了30个最优的结果。(主要是与GPT4比较的)
    3.1 首个(the first model)在MMLU任务上超过人类专家的模型(这个还是很厉害的)。
    3.2 在多模态数据上,刷新了所评价的20个测试集的结果。
  4. 跨模态的推理和语言理解

1 Introduction介绍

2 Model Architecture 模型架构

这一章的内容非常概要,基本没有细节。提供的内容如下:

另外,在第3页最后,提供了一些参考文献,基本都是谷歌自己的工作,可以参考阅读。

下面内容都没有详细解释

  1. 网络结构是什么样?
  2. Ultra, Pro版模型参数量是多少?
  3. 文本,图像,视频处理部分采用什么网络结构?
  4. 分别使用了什么目标函数?
  5. 训练过程中,如何对不同类型的数据进行控制?
    等等。

这是报告中给出的模型示意图。非常的概要,没有提供细节。

我尝试的理解了一下,主要模块应该是这样的(纯属猜测):

注意,一些遗留的问题,目前我并不太确定,还需要继续学习:

  1. 到底建立了什么样的关系:文本与图像,文本与语音,语音与图像?
  2. 关于图像生成处理这一部分。感兴趣可以去看Stable diffusion等模型是如何生成图片的。

视频推理的相关文章:
https://arxiv.org/pdf/2204.14198.pdf

3 Training Infrastructure训练设备

训练使用 TPU v5e, TPUv4.
训练Ultra版时,使用了多个数据中心的机器。
这里主要介绍了训练时碰到的一些挑战,和他们的做的一些工作。
不熟,不介绍了。

4 Training Dataset训练数据

本章内容约等于什么都没有说。

有以下几个点,可以留意一下:

5 Evaluation评价

报告首先提出了一个问题,就是Gemini使用多模态数据训练的,那么这个模型是否还可以在单任务上保持好的性能呢?
结论就是:在很多的任务上都取得了最优的结果,单任务依然很牛X。

5.1 学术基线数据(学术上常用的数据)

Pro超过GPT3.5和其他公开的模型。Ultra版超过所有现有模型。

uncertainty-routed chain-of-thought(COT)
在MMLU数据上(声称超过人家专家的数据库),采用了一种谷歌提出的COT的解码方式。
COT处理步骤:

另外文本中还提到了 32 chain-of-thought samples的方法,这种方法很可能是直接比较这 32 个输出样本的置信度来确定答案的。

5.2 Multimodal多模态

6 Responsible deployment

模型在公平,安全等方面的工作介绍。

7 Discussion and conclusion

第一段:性能好
第二段:最大的不同是多模态
第三段:局限性
第四段:梦想与情怀

写在最后

  1. 都跟OpenAI学坏了,技术报告基本就是吹牛专用的。没有可靠的对复现模型有用的细节。

  2. Gemini可以使用什么样输入输出:

    • 输入:文本提示词输入 -- OK

    • 输入:语音提示词输入 -- OK

    • 输入:图像 + 文本提示词 -- OK

    • 输入:图像 + 语音提示词 -- OK

    • 输入:视频 + 文本提示词(视频好像不能太长?) -- OK

    • 输入:视频 + 语音提示词 -- 没有看到

    • 输出:图像 -- OK

    • 输出:文本 -- OK

    • 输出:语音 -- 不支持

    • 输出:音乐 -- 不支持

  3. 演示视频的真实度分析:

    • 图像生成 --> 真
    • 图像输入 --> 真
    • 模型反应时间 --> 被剪辑
    • 语音输入 --> 可能真,为了流畅性,被剪辑过
    • 语音合成 --> 使用其他工具
    • 音乐播放 --> 可以给出搜索音乐的指示,播放音乐部分是剪辑出来的
    • 视频 + 语音提示词 --> 假,只是一种可能性。

虽然演示视频被质疑,但【视频 + 语音提示词】的模式真的非常有前途,也非常吸引人。目前看来,距离实现已经很近了,不知道谣传马上要发布的GPT-4.5是否可以给我们带来惊喜。

相关资料

  1. Gemini官方主页:
    https://deepmind.google/technologies/gemini/#introduction

  2. 谷歌的宣传博文:
    https://blog.google/technology/ai/google-gemini-ai/#sundar-note

  3. 宣传视频(基于视觉的交互):
    https://www.youtube.com/watch?v=UIZAiXYceBI&t=8s

  4. Gemini例子中多模态提示词相关介绍:
    https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

  5. Chain-of-Thought Prompting:
    https://arxiv.org/pdf/2201.11903.pdf