谷歌最新大模型 Gemini 相关资料整理

目录索引

▶︎

all

running...

1 谷歌最新最强大模型 Gemini 来了
2 谷歌Gemini演示视频被质疑造假
3 从谷歌博客文章看 Gemini 有什么？
4 笔记：谷歌 Gemini 模型技术报告
相关资料

1 谷歌最新最强大模型 Gemini 来了

【观看视频解说】

2023年12月7日，谷歌介绍了其即将发布的最新，最强的，多模态大模型。
此模型，在很多指标上都超过了OpenAI的GPT-4。

查看下面的视频，来看看Gemini有多牛吧：
https://youtu.be/cno5CsQMcig

谷歌的原视频：
https://www.youtube.com/watch?v=UIZAiXYceBI&t=8s

Gemini例子中多模态提示词相关介绍：
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

谷歌Gemini视频中展现了什么能力？

图像理解能力
多语言能力
游戏设计能力
游戏理解能力
理解物体之间关系
图像生成
逻辑能力
翻译图像，使用工具
对文化的理解

2 谷歌Gemini演示视频被质疑造假

谷歌的大模型Gemini发布后，马上受到了多方的质疑，称其演示视频造假。

详情，请观看下面视频：
https://youtu.be/SiovmuMpGmU

3 从谷歌博客文章看 Gemini 有什么？

谷歌于12月7日发布了其最新的大模型Gemini，同时官方也发了一篇博客文章来介绍这个模型。
这篇文章为你划划这篇文章的重点，让你快速了解Gemini都有什么料。

原文如下：
https://blog.google/technology/ai/google-gemini-ai/#sundar-note

要点：

迄今为止功能最强大、最通用的模型：32个任务30个超越GPT-4, GPT-4V
多种语言任务数据集上，首次超过了人类专家
原生多模态（支持文本，语音，图像，视频）
API服务即将开放，可以填表加入waitlist了

0. 看领导吹牛：
最前面是领导吹牛B，我们码农很忙，就不看了。

1. 性能最强：

2. 灵感来源：

3. 三个版本：

4. 多种任务中最好性能：32个中30个超过GPT-4（Gemini Ultra）

5. 多种任务的语言理解上超越人类专家：

文本任务上的结果：

6. 多模态任务的MMMU测试中，超越GPT-4V
图像任务上超越GPT-4V，并且可以直接理解图像中的文本，不需要OCR。

多模态任务上的结果：

7. 原生多模式支持：

8. API开放：
12月13日开始提供API。
Ultra版明年开放。

GPT有的，他也有，并且还更强：

支持复杂的推理，包括书面和视觉信息。
理解文本，图像，音频
高级编程能力（比如在HumanEval上超过GPT-4）
更可靠、可扩展且高效，提到了谷歌最新的 TPU v5p
以责任和安全为核心构建（政治上要正确）

4 笔记：谷歌 Gemini 模型技术报告

阅读报告时写的笔记，里面还夹杂了我个人对于模型实现的一些推测，最后还有一个小小的读后感。

相关视频：
从技术报告看谷歌视频有多假：
https://youtu.be/M8r8bH8IiqM
谷歌视频被质疑造假：
https://youtu.be/SiovmuMpGmU
谷歌Gemini发布，看看有多牛：
https://youtu.be/cno5CsQMcig

摘要部分

多模态模型： a new family of multimodal models，可以理解 image，audio，video，text。
有三个不同size的版本：Ultra, Pro, and Nano
性能刷榜：Gemini Ultra模型在32个数据集上取得了30个最优的结果。（主要是与GPT4比较的）
3.1 首个（the first model）在MMLU任务上超过人类专家的模型（这个还是很厉害的）。
3.2 在多模态数据上，刷新了所评价的20个测试集的结果。
跨模态的推理和语言理解

1 Introduction介绍

第一段：约等于什么也没有讲
第二段：说了Gemini有三个尺寸的版本
第三段：很关键的一段，这里列举了其最核心的技术。当然都是参考文献。
提到的主要相关技术有：LLM， image understanding， audio processing， video understanding， sequence models，distributed system。
第四段：主要介绍了性能（与摘要中相似）
1. 取得32个数据集上30个最优的结果。其中数据集的情况：包含 12个文本处理， 9个图像理解， 6个视频理解， 5个语音识别，语音翻译。
2. Gemini Ultra是第一个在MMLU上取得与人类专家一样表现的模型。（这里写得比较客气，没有说超过，后面有提超过）
3. Gemini Ultra在多模态推理任务有显著得性能

第五段：给了一个对图像理解，推理的例子
此例子中，老师给出了一个物理题，还有学生的解答。
将图片输入给模型，让它判断学生是否答对了，如果不对给出正确解答。

提示词：
Here's a solution to a Physics problem by a student.
Try to reason about the question step by step.
Dis the student get the correct answer? If the solution is wrong, please explain what is wrong and solve the problem.

Make sure to use LaTeX for math and round off the final answer to two decimal places.

我在GPT-4中试了一下，GPT-4也可以轻松搞定。

第六段：介绍了Nano版，目标是支持在终端设备上运行。
第七段：介绍了报告中都有什么内容。

2 Model Architecture 模型架构

这一章的内容非常概要，基本没有细节。提供的内容如下：

模型是基于Transformer decoder的
上下文长度支持 32K
高效的attention机制，具体用了什么没说（efficient attention mechanisms, e.g., multi-query attention ）。
Nano模型：
参数量 Nano-1：1.8B，Nano-2：3.25B；
trained with distilling from larger Gemini models。
4-bit 量化模型

另外，在第3页最后，提供了一些参考文献，基本都是谷歌自己的工作，可以参考阅读。

下面内容都没有详细解释

网络结构是什么样？
Ultra， Pro版模型参数量是多少？
文本，图像，视频处理部分采用什么网络结构？
分别使用了什么目标函数？
训练过程中，如何对不同类型的数据进行控制？
等等。

这是报告中给出的模型示意图。非常的概要，没有提供细节。

我尝试的理解了一下，主要模块应该是这样的（纯属猜测）：

基本数据处理模块：比如语音特征提取，视频采样等。
Transformer Encoder部分：对语音，图像进行进一步编码处理
Transformer Decoder部分（隐式表达）：多模态编码，用于建立文本与语音，图像的联系。
1. 文本提示词模式：通过Cross-attention 来与 Encoder 的输出建立内在的表达关系。
2. 语音提示词模式：如何进行迭代的？可能使用了基于RNNT的迭代方式？又或者，此处不进行迭代，将推理过程放到Text Decoder中。
解码输出部分：
Image Decoder图像生成
Text Decoder文本生成

注意，一些遗留的问题，目前我并不太确定，还需要继续学习：

到底建立了什么样的关系：文本与图像，文本与语音，语音与图像？
关于图像生成处理这一部分。感兴趣可以去看Stable diffusion等模型是如何生成图片的。

视频推理的相关文章：
https://arxiv.org/pdf/2204.14198.pdf

3 Training Infrastructure训练设备

训练使用 TPU v5e, TPUv4.
训练Ultra版时，使用了多个数据中心的机器。
这里主要介绍了训练时碰到的一些挑战，和他们的做的一些工作。
不熟，不介绍了。

4 Training Dataset训练数据

本章内容约等于什么都没有说。

有以下几个点，可以留意一下：

Tokens的数量选择，参考了文章 Hoffmann et al. 2022。
较小的模型使用了更多的数据来训练，从而来提高模型的性能。（由于小，训练速度快，同样的时间，可以在更多数据上训练。）
对数据进行了过滤，基于人工规则的，和基于模型分类器的两者过滤器。
进行了安全性过滤。
对测试集进行过滤，防止他们出现在训练数据中。-- 这一点非常重要。

5 Evaluation评价

报告首先提出了一个问题，就是Gemini使用多模态数据训练的，那么这个模型是否还可以在单任务上保持好的性能呢？
结论就是：在很多的任务上都取得了最优的结果，单任务依然很牛X。

5.1 学术基线数据（学术上常用的数据）

Pro超过GPT3.5和其他公开的模型。Ultra版超过所有现有模型。

uncertainty-routed chain-of-thought（COT）
在MMLU数据上（声称超过人家专家的数据库），采用了一种谷歌提出的COT的解码方式。
COT处理步骤：

生成k个输出：在生成这些样本时，模型通常会被提示（通过特定的提示词或问题结构），以输出包含解题思路的答案。
基于k个输出进行决策：多数投票，贪婪选择：
模型会对这些最终答案进行多数投票。如果有一个答案在多数（或一定比例）的样本中出现，且模型对这个答案有足够的置信度，那么就选择这个答案。如果没有明显的多数投票结果，或者模型对多数投票结果的置信度不足，那么它会回退到贪婪选择策略，即选择单个最有可能正确的答案。

另外文本中还提到了 32 chain-of-thought samples的方法，这种方法很可能是直接比较这 32 个输出样本的置信度来确定答案的。

5.2 Multimodal多模态

Sec5.2.2：在基于视频的评价中，通过在每个视频中均匀的采样16张照片，喂给模型来处理。（For each video task, we sample 16 equally-spaced frames from each video clip）and feed them to the Gemini models.
Figure 21：使用了一个4s的视频作为模型的输入，说明Gemini可以支持视频+文本提示词的方式。
Sec5.2.3： Gemini不需要通过中间层的语言提示词来生成图片（应该是基于Hidden表达的图片生成）。
图6：从此图来看，要使用N-shot的图像和文本混合的推理，可能需要一个比较复杂的文本，图像的输入界面（要么就是需要对图片进行编号或者命名的方式。）。
图左边：是提示词，需要同时有文本和图片
图右边：是输出的结果。
Sec5.2.4 声音理解，在ASR性能上超过了whisper模型。
Sec5.2.5 展示了模型可以使用图像+语音提示词作为输入。
没有看到视频 + 语音提示词作为输入方式的评价。（所以，演示视频很可能是一种表演。）

6 Responsible deployment

模型在公平，安全等方面的工作介绍。

7 Discussion and conclusion

第一段：性能好
第二段：最大的不同是多模态
第三段：局限性
第四段：梦想与情怀

写在最后

都跟OpenAI学坏了，技术报告基本就是吹牛专用的。没有可靠的对复现模型有用的细节。
Gemini可以使用什么样输入输出：
- 输入：文本提示词输入 -- OK
- 输入：语音提示词输入 -- OK
- 输入：图像 + 文本提示词 -- OK
- 输入：图像 + 语音提示词 -- OK
- 输入：视频 + 文本提示词（视频好像不能太长？） -- OK
- 输入：视频 + 语音提示词 -- 没有看到
- 输出：图像 -- OK
- 输出：文本 -- OK
- 输出：语音 -- 不支持
- 输出：音乐 -- 不支持
演示视频的真实度分析：
- 图像生成 --> 真
- 图像输入 --> 真
- 模型反应时间 --> 被剪辑
- 语音输入 --> 可能真，为了流畅性，被剪辑过
- 语音合成 --> 使用其他工具
- 音乐播放 --> 可以给出搜索音乐的指示，播放音乐部分是剪辑出来的
- 视频 + 语音提示词 --> 假，只是一种可能性。

虽然演示视频被质疑，但【视频 + 语音提示词】的模式真的非常有前途，也非常吸引人。目前看来，距离实现已经很近了，不知道谣传马上要发布的GPT-4.5是否可以给我们带来惊喜。