谷歌最新大模型 Gemini 相关资料整理
目录索引
2023年12月7日,谷歌介绍了其即将发布的最新,最强的,多模态大模型。
此模型,在很多指标上都超过了OpenAI的GPT-4。
查看下面的视频,来看看Gemini有多牛吧:
https://youtu.be/cno5CsQMcig
谷歌的原视频:
https://www.youtube.com/watch?v=UIZAiXYceBI&t=8s
Gemini例子中多模态提示词相关介绍:
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
谷歌Gemini视频中展现了什么能力?
谷歌的大模型Gemini发布后,马上受到了多方的质疑,称其演示视频造假。
详情,请观看下面视频:
https://youtu.be/SiovmuMpGmU
谷歌于12月7日发布了其最新的大模型Gemini,同时官方也发了一篇博客文章来介绍这个模型。
这篇文章为你划划这篇文章的重点,让你快速了解Gemini都有什么料。
原文如下:
https://blog.google/technology/ai/google-gemini-ai/#sundar-note
要点:
0. 看领导吹牛:
最前面是领导吹牛B,我们码农很忙,就不看了。
1. 性能最强:
2. 灵感来源:
3. 三个版本:
4. 多种任务中最好性能:32个中30个超过GPT-4(Gemini Ultra)
5. 多种任务的语言理解上超越人类专家:
文本任务上的结果:
6. 多模态任务的MMMU测试中,超越GPT-4V
图像任务上超越GPT-4V,并且可以直接理解图像中的文本,不需要OCR。
多模态任务上的结果:
7. 原生多模式支持:
8. API开放:
12月13日开始提供API。
Ultra版明年开放。
GPT有的,他也有,并且还更强:
阅读报告时写的笔记,里面还夹杂了我个人对于模型实现的一些推测,最后还有一个小小的读后感。
相关视频:
从技术报告看谷歌视频有多假:
https://youtu.be/M8r8bH8IiqM
谷歌视频被质疑造假:
https://youtu.be/SiovmuMpGmU
谷歌Gemini发布,看看有多牛:
https://youtu.be/cno5CsQMcig
第一段:约等于什么也没有讲
第二段:说了Gemini有三个尺寸的版本
第三段:很关键的一段,这里列举了其最核心的技术。当然都是参考文献。
提到的主要相关技术有:LLM, image understanding, audio processing, video understanding, sequence models,distributed system。
第四段: 主要介绍了性能(与摘要中相似)
第五段:给了一个对图像理解,推理的例子
此例子中,老师给出了一个物理题,还有学生的解答。
将图片输入给模型,让它判断学生是否答对了,如果不对给出正确解答。
提示词:
Here's a solution to a Physics problem by a student.
Try to reason about the question step by step.
Dis the student get the correct answer? If the solution is wrong, please explain what is wrong and solve the problem.
Make sure to use LaTeX for math and round off the final answer to two decimal places.
我在GPT-4中试了一下,GPT-4也可以轻松搞定。
第六段: 介绍了Nano版,目标是支持在终端设备上运行。
第七段: 介绍了报告中都有什么内容。
这一章的内容非常概要,基本没有细节。提供的内容如下:
另外,在第3页最后,提供了一些参考文献,基本都是谷歌自己的工作,可以参考阅读。
下面内容都没有详细解释
这是报告中给出的模型示意图。非常的概要,没有提供细节。
我尝试的理解了一下,主要模块应该是这样的(纯属猜测):
基本数据处理模块:比如语音特征提取,视频采样等。
Transformer Encoder部分:对语音,图像进行进一步编码处理
Transformer Decoder部分(隐式表达):多模态编码,用于建立文本与语音,图像的联系。
解码输出部分:
Image Decoder图像生成
Text Decoder文本生成
注意,一些遗留的问题,目前我并不太确定,还需要继续学习:
视频推理的相关文章:
https://arxiv.org/pdf/2204.14198.pdf
训练使用 TPU v5e, TPUv4.
训练Ultra版时,使用了多个数据中心的机器。
这里主要介绍了训练时碰到的一些挑战,和他们的做的一些工作。
不熟,不介绍了。
本章内容约等于什么都没有说。
有以下几个点,可以留意一下:
报告首先提出了一个问题,就是Gemini使用多模态数据训练的,那么这个模型是否还可以在单任务上保持好的性能呢?
结论就是:在很多的任务上都取得了最优的结果,单任务依然很牛X。
5.1 学术基线数据(学术上常用的数据)
Pro超过GPT3.5和其他公开的模型。Ultra版超过所有现有模型。
uncertainty-routed chain-of-thought(COT)
在MMLU数据上(声称超过人家专家的数据库),采用了一种谷歌提出的COT的解码方式。
COT处理步骤:
另外文本中还提到了 32 chain-of-thought samples的方法,这种方法很可能是直接比较这 32 个输出样本的置信度来确定答案的。
5.2 Multimodal多模态
Sec5.2.2:在基于视频的评价中,通过在每个视频中均匀的采样16张照片,喂给模型来处理。(For each video task, we sample 16 equally-spaced frames from each video clip)and feed them to the Gemini models.
Figure 21:使用了一个4s的视频作为模型的输入,说明Gemini可以支持视频+文本提示词的方式。
Sec5.2.3: Gemini不需要通过中间层的语言提示词来生成图片(应该是基于Hidden表达的图片生成)。
图6:从此图来看,要使用N-shot的图像和文本混合的推理,可能需要一个比较复杂的文本,图像的输入界面(要么就是需要对图片进行编号或者命名的方式。)。
图左边:是提示词,需要同时有文本和图片
图右边:是输出的结果。
Sec5.2.4 声音理解,在ASR性能上超过了whisper模型。
Sec5.2.5 展示了模型可以使用 图像+语音提示词 作为输入。
没有看到 视频 + 语音提示词 作为输入方式的评价。(所以,演示视频很可能是一种表演。)
模型在公平,安全等方面的工作介绍。
第一段:性能好
第二段:最大的不同是多模态
第三段:局限性
第四段:梦想与情怀
都跟OpenAI学坏了,技术报告基本就是吹牛专用的。没有可靠的对复现模型有用的细节。
Gemini可以使用什么样输入输出:
输入:文本提示词输入 -- OK
输入:语音提示词输入 -- OK
输入:图像 + 文本提示词 -- OK
输入:图像 + 语音提示词 -- OK
输入:视频 + 文本提示词(视频好像不能太长?) -- OK
输入:视频 + 语音提示词 -- 没有看到
输出:图像 -- OK
输出:文本 -- OK
输出:语音 -- 不支持
输出:音乐 -- 不支持
演示视频的真实度分析:
虽然演示视频被质疑,但【视频 + 语音提示词】的模式真的非常有前途,也非常吸引人。目前看来,距离实现已经很近了,不知道谣传马上要发布的GPT-4.5是否可以给我们带来惊喜。
Gemini官方主页:
https://deepmind.google/technologies/gemini/#introduction
谷歌的宣传博文:
https://blog.google/technology/ai/google-gemini-ai/#sundar-note
宣传视频(基于视觉的交互):
https://www.youtube.com/watch?v=UIZAiXYceBI&t=8s
Gemini例子中多模态提示词相关介绍:
https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
Chain-of-Thought Prompting:
https://arxiv.org/pdf/2201.11903.pdf