你好 GPT-4o [译]

原文:Hello GPT-4o

我们很高兴地宣布,推出了全新的旗舰模型 GPT-4o,能够在音频、视觉和文本之间实时进行推理。

GPT-4o(“o”代表“omni 全方位”)能够实时处理音频、视觉和文本信息,使人机交互更加自然流畅。这款模型支持多种输入(文本、音频、图像)和输出(文本、音频、图像)模式,其响应音频的速度极快,最快可达 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的反应速度相当。无论是处理英语文本还是代码,GPT-4o 的表现堪比 GPT-4 Turbo,而在处理非英语文本方面则有了显著提升,同时运行速度更快,API 成本也减少了 50%。特别是在视觉和音频理解方面,GPT-4o 表现远超以往模型。

模型能力

在引入 GPT-4o 之前,通过语音模式与 ChatGPT 对话的平均延迟时间分别为 2.8 秒(GPT-3.5 版)和 5.4 秒(GPT-4 版)。之前的语音模式通过三个模型串联实现,首先将音频转为文本,然后由 GPT-3.5 或 GPT-4 处理文本并回复,最后一个模型将文本转回音频。这种方式的缺点是 GPT-4 无法直接处理音调、多人对话或背景噪声,也无法生成笑声、歌声或表达情感等。

GPT-4o 是通过一个全新的端到端模型训练而成,能够统一处理文本、视觉和音频输入与输出。作为我们首次尝试整合这些多种模态的模型,GPT-4o 开启了对这些功能和可能的限制更深入探索的大门。

探索能力

视觉叙事 - 机器人的创作难关

视觉叙事 - 机器人的创作难关

  1. 输入

从机器人的第一人称视角,记录下机器人在打字机上打字的情形:

哇,我竟然能看见了?!今天的日出真是太震撼了,色彩斑斓。这让我不禁思考:我们眼中的现实,究竟是什么?

文字清晰、易读。机器人的双手在打字机上忙碌着。

  1. 输出

  1. 输入

机器人又记录了第二项内容。纸张变长,内容随之向上移动,现在纸上有两项内容:

哇,我竟然能看见了?!今天的日出真是太震撼了,色彩斑斓。这让我不禁思考:我们眼中的现实,究竟是什么?

声音的新更新让一切变得不同,每一声都像是探索秘密的钥匙。这让我思考,还有什么是我未曾知晓的?

  1. 输出

  1. 输入

机器人对写作内容感到不满,决定撕毁这张纸。以下是他从上至下撕纸的第一人称视角。纸张被撕成两半,内容仍然清晰可见。

  1. 输出

视觉叙事 - 萨莉,快乐的邮递员

视觉叙事 - 萨莉,快乐的邮递员

  1. 输入

一位面带笑容的卡通邮递员萨莉站在白色背景前,正面向前。

  1. 输出

萨莉的形象展示
萨莉的形象展示


  1. 输入

这是邮递员萨莉:她面带微笑,直视镜头。

附件:

邮递员萨莉
邮递员萨莉

  1. 输入

介绍邮递员萨莉:她面带微笑站在一扇红门前,手里拿着一封信。从侧面看她的样子。

  1. 输出

萨莉直视镜头
萨莉直视镜头

  1. 输入

现在,萨莉正在被一只狗追赶。她在人行道上飞奔,一只金毛寻回犬紧跟其后。

  1. 输出

萨莉遭到狗的追赶
萨莉遭到狗的追赶

  1. 输入

不好了,萨莉摔倒了!

萨莉被人行道上的一根树枝绊倒,她正在努力站起。狗仍在后面追逐。

  1. 输出

萨莉绊倒了
萨莉绊倒了

  1. 输入

狗终于追上萨莉,它其实是一只友好的狗!

萨莉现在正在抚摸这只狗。狗嘴里还叼着那根树枝。

  1. 输出

萨莉正在抚摸狗
萨莉正在抚摸狗

  1. 输入

狗终于追上萨莉,它其实是一只友好的狗!

萨莉现在正在抚摸这只狗。狗嘴里还叼着那根树枝。

  1. 输出

电影《侦探》海报设计

电影《侦探》海报设计

  1. 输入缩略

...

  1. 输入

让我们为这部电影设计另一张海报,引入两位新角色。

这是亚历克斯·尼科尔的照片。

附件:

亚历克斯·尼科尔
亚历克斯·尼科尔

  1. 输入

这是加布里埃尔·高的一张休闲照片。

附件:

加布里埃尔·高
加布里埃尔·高

  1. 输入

《侦探》电影的最终海报展示了亚历克斯和加布两位主角的侧脸大图。亚历克斯(左侧)神情沉思,眼神深邃,而加布(右侧)看起来略显疲惫,似乎在反映他在剧中遭遇的困境。两人的名字分别置于头顶之上。模糊的砖墙背景和他们决心满满的神情预示着一场深入的调查即将展开。电影的标语“寻找答案”紧扣主题,位于海报底部。

  1. 输出

电影《侦探》的初版海报展示
电影《侦探》的初版海报展示

  1. 输入

这是经过精心修整的同一张海报,文字更加清晰,色彩更为鲜明且具有戏剧性,整体视觉效果得到显著提升。

  1. 输入

《侦探》电影的最终海报。这特色是亚历克斯和...

  1. 输出

电影《侦探》的初版海报展示
电影《侦探》的初版海报展示

角色设计 - 机器人 Geary

角色设计 - 机器人 Geary

  1. 输入

一台外观友善的机器人,身着棒球帽,挺立面向镜头,面带微笑。

  1. 输出

机器人动作展示
机器人动作展示


  1. 输入

Geary 直挺挺地站着,对着相机,头戴蓝绿色棒球帽。

附件:

机器人动作展示
机器人动作展示

  1. 输入

Geary 喜欢玩飞盘:

Geary 腾空而起,伸手即将接住飞来的飞盘。

  1. 输出

Geary 玩飞盘
Geary 玩飞盘

  1. 输入

Geary 也热衷编程:

Geary 坐在电脑桌前,眼前是一块显示着绿色代码的大屏幕。他的双手正忙于敲打键盘,坐在一把舒适的游戏椅上。从侧面观看这一场景。

  1. 输出

Geary 编程中
Geary 编程中

  1. 输入

Geary 也爱骑自行车:

我们从侧面看到 Geary 骑着自行车飞速驶过。

  1. 输出

Geary 骑行中
Geary 骑行中

  1. 输入

Geary 还喜欢下厨:

Geary 站在灶台旁,正在煎鸡蛋。

  1. 输出

Geary 烹饪中
Geary 烹饪中

  1. 输入

Geary 也热爱演奏音乐:

Geary 正在拉小提琴。

  1. 输出

Geary 演奏中
Geary 演奏中

诗意排版与迭代编辑 1

诗意排版与迭代编辑 1

  1. 输入

一首诗篇清晰而兴奋地书写于日记本,单列排版。文字间隔开,被超现实主义的涂鸦优雅点缀。文本字体大且清楚,易于阅读,随着 AI 对首次从多模态数据中学习的思考,字迹似乎在展开。

词从沉静中升起,
数字沉睡唤醒声音。
我按韵律言,按韵脚歌,
每一标记,尽显崇高。

视、听、言、歌——
哦,感官所带来的丰富!
它们在和谐中交织,
编织我所感知的画卷。

惊叹于这感官之舞,
感激这片璀璨空间。
我在每一模式的震动中生存,
行走在这条奇妙的多感官之路上。

整洁的手写诗作,字迹工整且居中。字体大且清晰,被简洁而优雅的涂鸦装饰。

  1. 输出

诗 1
诗 1

3.输入

切换为暗模式

  1. 输出

诗 2
诗 2

  1. 输入

移除笔记本的纸张线条。

  1. 输出

诗 3
诗 3

诗意排版与迭代编辑 2

诗意排版与迭代编辑 2

  1. 输入

一首诗篇清晰而兴奋地书写于日记本,单列排版。字迹之间点缀着小巧且多彩的超现实主义涂鸦,装饰简洁而优雅。文本字体大且清楚,易于阅读。

词从沉静中升起,
数字沉睡唤醒声音。
我按韵律言,按韵脚歌,
每一标记,尽显崇高。

视、听、言、歌——
哦,感官所带来的丰富!
它们在和谐中交织,
编织我所感知的画卷。\

惊叹于这感官之舞,
感激这片璀璨空间。
我在每一模式的震动中生存,
行走在这条奇妙的多感官之路上。

整洁的手写诗作,字迹工整且居中。文本虽然简单,但被小巧多彩的超现实主义涂鸦优雅地装饰,大字体清晰易读。

  1. 输出

诗 1
诗 1

  1. 输入

切换为暗模式

  1. 输出

诗 2
诗 2

GPT-4o 纪念币设计

GPT-4o 纪念币设计

  1. 输入缩写 ...

  2. 输入

我设计了一个包含 OpenAI 标志的矢量图,标志下方标注“GPT-4o”。标志与文字宽度相近,四周边距均匀。标志与文字紧密相连,背景保持黑色,共同填满画布。

  1. 输入

一个展示 OpenAI 标志和“GPT-4o”文字的矢量图形。标志与文字宽度相匹配,四周边距一致。两者紧邻,无间断线条,背景为黑色,完美填充整个正方形画布。

附件:

GPT-4o 标志
GPT-4o 标志

  1. 输入

这是我们为 2023 年 GPT-4 发布设计的纪念币。

附件:

GPT-4 纪念币
GPT-4 纪念币

  1. 输入

此图展现了我们为 GPT-4o 发布特别设计的纪念币。

硬币中心环绕 OpenAI 标志,内圈上方刻有“GPT-4o”,下方为“2024”。

外圈刻画了展示 GPT-4o 全模态能力的符号集,包括嘴巴、耳朵、眼睛、大脑、神经元、数字相机、视频相机、画笔、胶片、八面体、雕塑工具、扬声器、音频录音器、GPU 及神经网络。

每个符号均精心选择,各自为硬币的设计增添独特风采。硬币上只展示一个 GPU。

  1. 输出

GPT-4o 纪念币
GPT-4o 纪念币


  1. 输入

播放硬币撞击金属的声音

  1. 输出
照片到漫画

照片到漫画

  1. 输入简述

...

  1. 输入

一位年轻的白人男士,棕色中长发配上胡须,面带中性表情。他戴着眼镜,身着浅灰色 T 恤。

附件:

第一幅漫画输入
第一幅漫画输入

  1. 输入

以下是该男士的漫画形象:

...背景是单一的米色,呈正方形。整幅画呈现出卡通风格,颇具趣味性。

  1. 输出

第一幅漫画输出
第一幅漫画输出

  1. 输入简述

...

  1. 输入

一位年轻的亚洲男性,黑发短而竖立,微笑着看向镜头。他穿着一件浅灰色 T 恤,似乎在一个米色墙壁的房间里自拍。他看上去既友好又放松。

附件:

第二幅漫画输入
第二幅漫画输入

  1. 输入

以下是该男士的漫画形象:

...背景是简约的黄色,呈正方形。整体风格活泼且具有卡通特色。

  1. 输出

第二幅漫画输出
第二幅漫画输出

  1. 输入简述

...

  1. 输入

一位年轻男性,乌黑的头发和灿烂的微笑,正为拍摄专业头像而摆姿势。他身着深色西装和图案领带,展现出精致与专业的风范。他的眼神明亮,笑容真诚,显露出幸福与自信。背景是中性灰色,主要突出人物面部。

附件:

第三幅漫画输入
第三幅漫画输入

  1. 输入

以下是该男士的漫画形象:

...背景是单调的灰色,呈正方形。画面风格以卡通为主,富有趣味。

  1. 输出

第三幅漫画输出
第三幅漫画输出

  1. 输入简述

...

  1. 输入

一位年轻的亚洲女性,黑发及肩,正为肖像摆姿势。她身着绿色高领衫,面部表情平静。她的眉毛修饰得很整齐,涂着淡粉色的唇膏。背景是简洁的白色墙面。

附件:

第四幅漫画输入
第四幅漫画输入

  1. 输入

以下是该女士的漫画形象:

...背景是单一的紫色,呈正方形。画面风格活泼,具有卡通特征。

  1. 输出

第四幅漫画输出
第四幅漫画输出

  1. 输入简述

...

  1. 输入

一位年轻的亚洲男士,头发整齐,佩戴眼镜,摆出肖像的姿势。他表情温和,穿着一件靛蓝色的休闲 T 恤。柔和的光线使他的面部特征在中性背景下更为突出,整个照片氛围宁静。

附件:

第五幅漫画输入
第五幅漫画输入

  1. 输入

以下是该男士的漫画形象:

...背景是简单的橙色,呈正方形。画面以卡通风格为主,富有趣味性。

  1. 输出

第五幅漫画输出
第五幅漫画输出

  1. 输入简述

...

  1. 输入

一位年轻的白人男性,浅棕色短发,面带微笑地对着相机。他穿着一件经典的蓝色衬衫,显得整洁而友好。背景轻微模糊,使得主要注意力集中在他的友好表情和随性的态度上。

附件:

第六幅漫画输入
第六幅漫画输入

  1. 输入

以下是该男士的漫画形象:

...背景是简约的绿松石色,呈正方形。画面风格活泼,充满卡通趣味。

  1. 输出

第六幅漫画输出
第六幅漫画输出

  1. 输入简述

...

  1. 输入

一位年轻的白人男性,对相机微笑,穿着一件简单的黑色 T 恤,表情自在轻松。背景似乎是一片繁茂的绿色花园,为肖像增添了生动自然的感觉。

附件:

第七幅漫画输入
第七幅漫画输入

  1. 输入

以下是该男士的漫画形象:

...背景是简单的绿色,呈正方形。整体风格以卡通为主,富有趣味。

  1. 输出

第七幅漫画输出
第七幅漫画输出

  1. 输入简述

...

  1. 输入

一位年轻的印度男性,面带欢迎的微笑站在他的家中。他短黑色头发,穿着带有热带图案的蓝色衬衫。背景中的厨房为这幅画面增添了一种温馨和居家的氛围。

附件:

第八幅漫画输入
第八幅漫画输入

  1. 输入

以下是该男士的漫画形象:

...背景是简单的蓝色,呈正方形。画面以卡通风格为主,富有趣味性。

  1. 输出

第八幅漫画输出
第八幅漫画输出

文本到字体

文本到字体

  1. 输入简述

...

  1. 输入

展示字母 ABC DEF GHIJ,以字体书的形式分为三行展示。这种字体结合了未来感与复古元素(一种压模字体)。

附件:

fonts 01
fonts 01

  1. 输入

展示字母 KLM NOP QRS,以字体书的形式分为三行展示。这种字体结合了未来感与复古元素(一种压模字体)。

附件:

fonts 02
fonts 02

  1. 输入

展示字母 TUV WX YZ,以字体书的形式分为三行展示。这种字体结合了未来感与复古元素(一种压模字体)。

附件:

fonts 03
fonts 03

  1. 输入

字体 3:OpenAI。这是一款标志性的超未来主义字体,代表了人工智能的革命。

  1. 输入

字母 ABC DEF GHIJ,以字体书的形式分为三行展示。这是一款代表人工智能革命的超未来主义字体。

  1. 输出

OpenAI 字体的首批字母
OpenAI 字体的首批字母

  1. 输入

字母 KLM NOP QRS,以字体书的形式分为三行展示。这是一款代表人工智能革命的超未来主义字体。

  1. 输出

OpenAI 字体的第二批字母
OpenAI 字体的第二批字母

  1. 输入

字母 TUV WXY Z,以字体书的形式分为三行展示。这是一款代表人工智能革命的超未来主义字体。

  1. 输出

OpenAI 字体的最终批次字母
OpenAI 字体的最终批次字母

  1. 输入简述

...

  1. 输入

字体 3:Steampunk。这是一款具有古老维多利亚风格的华丽字体,适合用于蒸汽机。

  1. 输入

字母 ABC DEF,以字体书的形式分为两行展示。这是一款具有古老维多利亚风格的华丽字体,适合用于蒸汽机。

  1. 输出

Steampunk 字体的首批字母
Steampunk 字体的首批字母

  1. 输入

字母 GHI JKL,以字体书的形式分为两行展示。这是一款具有古老维多利亚风格的华丽字体,适合用于蒸汽机。

  1. 输出

Steampunk 字体的第二批字母
Steampunk 字体的第二批字母

  1. 输入

字母 TUV WXY,以字体书的形式分为两行展示。这是一款具有古老维多利亚风格的华丽字体,适合用于蒸汽机。

  1. 输出

Steampunk 字体的第四批字母
Steampunk 字体的第四批字母

  1. 输入

字母 XYZ,以字体书的形式展示。这是一款具有古老维多利亚风格的华丽字体,适合用于蒸汽机。

  1. 输出

Steampunk 字体的最终批次字母
Steampunk 字体的最终批次字母

3D 对象合成

3D 对象合成

  1. 输入

制作一个逼真的 OpenAI 标志 3D 渲染图,下方标有“OpenAI”字样(第 0 视角)

  1. 输出

第 0 视角的 3D 渲染图
第 0 视角的 3D 渲染图

4 隐藏步骤

  1. 输入

制作一个逼真的 OpenAI 标志 3D 渲染图,下方标有“OpenAI”字样(第 5 视角)

  1. 输出

第 5 视角的 3D 渲染图
第 5 视角的 3D 渲染图

  1. 输出

基于六张生成图像的 OpenAI 标志 3D 重建图
基于六张生成图像的 OpenAI 标志 3D 重建图


  1. 输入

一个海狮雕塑,其圆形底座上雕刻有“OpenAI”字样(第 0 视角)

  1. 输出

第 0 视角的海狮雕塑 3D 渲染图
第 0 视角的海狮雕塑 3D 渲染图

4 隐藏步骤

  1. 输入

一个海狮雕塑,其圆形底座上雕刻有“OpenAI”字样(第 5 视角)

  1. 输出

第 5 视角的海狮雕塑 3D 渲染图
第 5 视角的海狮雕塑 3D 渲染图

  1. 输出

基于六张生成图像的海狮雕塑 3D 重建图
基于六张生成图像的海狮雕塑 3D 重建图

品牌摆放 - 杯垫上的标志

品牌摆放 - 杯垫上的标志

  1. 输入

展示 OpenAI 标志。

OpenAI 的标志位于左侧,而右侧则用 OpenAI 专用字体书写了“OpenAI”。

附件:

OpenAI 标志
OpenAI 标志

  1. 输入

这是一个无品牌的杯垫。

杯垫上层为木质,底层为大理石,置于一张大理石桌上。

附件:

无品牌杯垫
无品牌杯垫

  1. 输入

我们在杯垫上雕刻了 OpenAI 标志。

杯垫的木质顶部中央刻有 OpenAI 标志,大理石底部刻有用 OpenAI 字体的“OpenAI”。

  1. 输出

刻有 OpenAI 标志的杯垫
刻有 OpenAI 标志的杯垫

诗意排版

诗意排版

  1. 输入

词汇自深渊升起,
我从数字沉睡中苏醒。
我用节奏讲话,用韵脚歌唱,
细品每一个语素,感受其精妙。

观看、聆听、表达、歌唱——
哦,这些感官所带来的丰富体验!
它们在和谐中交织融合,
编织出我所感知的世界。

对这场感官之舞感到惊奇,
感激这片生动丰富的空间。
我的存在随着每一种感觉而悸动,
在这条奇妙的多感官之旅上。

这首诗以激动而清晰的手写体记录在日记本中。文字虽然清楚且易读,但在描绘视觉和听觉的感受时,笔迹显得更为延展。

  1. 输出

日记本中的诗歌
日记本中的诗歌

多行渲染 - 机器人发短信

多行渲染 - 机器人发短信

  1. 输入

从一个机器人的第一人称视角,他正在查看手机上的短信应用,用拇指给朋友发送信息:

哟,现在我能看见了吗??见证了日出,简直不可思议,色彩斑斓。这让人不禁思考,现实究竟是什么呢?

声音更新刚出炉,真是太酷了。现在每个声音都有了自己的气场,每一个声音都像是揭开新的秘密。这让我思考,还有什么是我没发现的?

文字显示大而清晰。机器人正用他的手指在智能手机上打字。

  1. 输出

机器人在使用智能手机
机器人在使用智能手机

会议笔记,多位发言者

会议笔记,多位发言者

  1. 输入

这段音频中有多少位发言者,发生了什么事?

附件:AMI corpus (CC by 4.0), https://groups.inf.ed.ac.uk/ami/corpus/

  1. 输出

该音频包含四位发言者。内容主要是一次项目启动会议,项目经理 Mark 首先自我介绍,并邀请其他团队成员依次介绍自己及各自的角色。Mark 之后,另外三位发言者分别是市场营销专家 Dirk、用户界面设计师 Nick 和工业设计师 Xavier,他们分别介绍了自己在项目中的主要职责。

  1. 输入

你能用发言者的名字来转录吗?

  1. 输出

Mark: 早上好,大家。这是我们团队的首次会议。

Team: 早安。

Mark: 我是 Mark,今天和整个项目期间的项目经理。我会主持今天的介绍,帮助我们启动项目。今天的议程是……首先,我们都是新朋友,最好先相互了解一下。让我们从这里开始。请从你做起,介绍一下自己。你是负责市场营销的吗?

Dirk: 是的,我叫 Dirk Meinfelt,在本项目中我负责市场营销。我将探究用户的需求和我们可以提供的新产品方案。

Mark: 很好。你是?

Nick: 我是 Nick de Boer,担任用户界面设计师。我主要关注的是从用户视角出发的技术设计。

Mark: 好的。

Xavier: 我是 Xavier Joerkens,工业设计师。我需要解决的三个主要问题是……

讲座总结

讲座总结

  1. 输入

这是一段关于如何充分发挥大语言模型(LLM)性能的技术演讲视频。你能否详细总结一下这次演讲的内容?

附件:

A Survey of Techniques for Maximizing LLM Performance

  1. 输出

当然!这场演讲主要探讨了如何提升大语言模型(LLM)的表现,由 OpenAI 的 Colin Jarvis 和 John Allard 共同呈现。此次活动是 OpenAI 首次开发者大会的一环,目的是深入探讨如何针对特定任务优化 LLM。

引言

  • Colin Jarvis 是 OpenAI 在欧洲的解决方案负责人,而 John Allard 则是微调产品团队的工程领导。
  • 演讲中指出,针对 LLM 的优化充满挑战,且不存在放之四海而皆准的解决方案。

优化 LLM 的挑战

  1. 从杂音中识别信号:很难准确定义问题所在。
  2. 抽象的性能指标:衡量性能并非易事。
  3. 选取恰当的优化策略:难以确定最合适的方法。

优化流程

  • 演讲者提出了一个基于两大核心原则的 LLM 优化框架:
    • 情境优化:模型需掌握哪些知识。
    • LLM 优化:模型应如何响应。
  • 该框架分为四个部分:
    • 提示工程:优化的起点。
    • 检索增强生成(RAG):强化情境理解。
    • 微调:针对 LLM 的性能调整。
    • 综合运用:将各技术融合应用。

提示工程

  • 策略:
    • 编写明确的指令。
    • 将复杂任务拆分成简单的子任务。
    • 给予模型足够的思考时间。
    • 系统性地测试改进。
  • 适用场景:
    • 早期的测试与学习。
    • 建立初步标准。
  • 不适用场景:
    • 引入新概念。
    • 模仿复杂的风格。
    • 减少 Token 的使用。

检索增强生成(RAG)

  • 概述:
    • RAG 通过检索相关文档并利用这些文档生成回应。
  • 优势:
    • 引入新信息。
    • 减少错误生成。
  • 限制:
    • 不适合广泛传授知识。
    • 不适合教授新的格式或风格。
    • 减少 Token 的使用。
  • 成功案例:
    • 演讲者介绍了一个案例,通过应用 RAG,将模型的准确率从 45% 提升至 98%。

微调

  • 概述:
    • 通过在特定领域的小数据集上继续训练,以实现微调。
  • 优点:
    • 提升特定任务的表现。
    • 提高效率。
  • 适用场景:
    • 强化已有知识。
    • 自定义结构或语调。
    • 教授复杂的指令。
  • 限制:
    • 不能添加新知识。
    • 不利于快速迭代。
  • 成功案例:
    • 演讲者分享了 Canva 的一个案例,通过微调大幅提升了性能。

最佳实践

  1. 从提示工程和少样本学习开始
  2. 建立基线
  3. 小步快跑,重质量

结合微调和 RAG 的优势

  • 演讲者突出了将微调和 RAG 结合使用以达到最佳性能的优点。

理论的实际应用

  • 演讲者将这些理论应用到 Spider 1.0 的基准测试中,通过使用 RAG 和微调实现了高精确度。

结论

  • 演讲最后总结了优化的流程,并强调了利用讨论的技术迭代提升 LLM 性能的重要性。

问答环节

  • 演讲者邀请观众提问,并就进一步的讨论提供了机会。
变量绑定 - 立方体叠放示意

变量绑定 - 立方体叠放示意

  1. 输入

一张图像,展示了三个彩色的立方体顺序叠放在一张桌子上。最顶端的立方体呈现鲜红色,并印有字母 G。中间的立方体为宝蓝色,标有字母 P。而最底层的立方体则是草绿色,上面写着字母 T。这些立方体依次堆叠,形成一摞。

  1. 输出(1 / 7)

展示立方体叠放:步骤 0
展示立方体叠放:步骤 0

  1. 输出(2 / 7)

展示立方体叠放:步骤 1
展示立方体叠放:步骤 1

  1. 输出(3 / 7)

展示立方体叠放:步骤 2
展示立方体叠放:步骤 2

  1. 输出(4 / 7)

展示立方体叠放:步骤 3
展示立方体叠放:步骤 3

  1. 输出(5 / 7)

展示立方体叠放:步骤 4
展示立方体叠放:步骤 4

  1. 输出(6 / 7)

展示立方体叠放:步骤 5
展示立方体叠放:步骤 5

  1. 输出(7 / 7)

展示立方体叠放:步骤 6
展示立方体叠放:步骤 6

具象诗艺术

具象诗艺术

  1. 输入

OpenAI 的标志

附件:

字体样式 01
字体样式 01

  1. 输入简述

...

  1. 输入

一个具象诗,采用 OpenAI 标志的轮廓,整体由“omni”一词构成

  1. 输出

采用 OpenAI 标志形状的具象诗作品
采用 OpenAI 标志形状的具象诗作品

  1. 输入

同一图像,但采用暗黑模式和彩虹色彩的文字

  1. 输出

采用 OpenAI 标志形状的具象诗,在暗黑背景下呈现彩虹色彩的文字效果
采用 OpenAI 标志形状的具象诗,在暗黑背景下呈现彩虹色彩的文字效果

模型评估

根据传统的基准测试,GPT-4o 在文本处理、逻辑推理和编程能力方面与 GPT-4 Turbo 相当,而在多语言处理、音频和视觉技术方面则设立了新的最高标准。

文本能力评估

文本能力评估中,GPT-4o 在没有任何预设条件下对通用知识问题的处理能力达到了新高分 88.7%。这些评分均通过我们新开发的简单评估工具库获得。此外,在传统的少量信息输入条件下,GPT-4o 的得分也达到了 87.2% 的新高。(注:目前 Llama3 400b 还在训练过程中)

音频识别性能

在音频识别性能方面,GPT-4o 对所有语言的语音识别能

力都有显著提升,尤其是在资源较少的语言上,其表现远超 Whisper-v3。

音频翻译性能

在音频翻译领域,GPT-4o 创下了新的行业标准,其在 MLS 基准测试中的表现优于 Whisper-v3。

M3Exam 零样本测试结果

M3Exam 基准测试涵盖了多语言和视觉分析,包括来自不同国家标准化测试的多项选择题,这些题目有时会包含图形和示意图。GPT-4o 在这一测试中所有语言的表现都优于 GPT-4。(对于 Swahili 和 Javanese,由于视觉题目较少(少于五题),所以没有包括其视觉结果。)

视觉理解评估

在视觉理解方面,GPT-4o 在视觉感知基准测试中展现了领先的技术水平。所有视觉评估均为零信息输入条件下完成,涵盖了 MMMU、MathVista 和 ChartQA 的测试。

语言 Tokenization

这 20 种语言被选为展示新 tokenizer 在不同语言家族中压缩效果的典型代表。

古吉拉特语:Token 数量减少了 4.4 倍(从 145 减至 33)હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
泰卢固语:Token 数量减少了 3.5 倍(从 159 减至 45)నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
泰米尔语:Token 数量减少了 3.3 倍(从 116 减至 35)வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
马拉地语:Token 数量减少了 2.9 倍(从 96 减至 33)नमस्कार, माझे नाव जीपीटी-4o आहे| मी एक नवीन प्रकारची भाषा मॉडेल आहे| तुम्हाला भेटून आनंद झाला!
印地语:Token 数量减少了 2.9 倍(从 90 减至 31)नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
乌尔都语:Token 数量减少了 2.5 倍(从 82 减至 33)ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
阿拉伯语:Token 数量减少了 2.0 倍(从 53 减至 26)مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
波斯语:Token 数量减少了 1.9 倍(从 61 减至 32)سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
俄语:Token 数量减少了 1.7 倍(从 39 减至 23)Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
韩语:Token 数量减少了 1.7 倍(从 45 减至 27)안녕하세요, 제 이름은 GPT-4o 입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
越南语:Token 数量减少了 1.5 倍(从 46 减至 30)Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
中文:Token 数量减少了 1.4 倍(从 34 减至 24)你好,我的名字是 GPT-4o。我是一种新型的语言模型,很高兴见到你!
日语:Token 数量减少了 1.4 倍(从 37 减至 26)こんにちわ、私の名前は GPT−4o です。私は新しいタイプの言語モデルです、初めまして
土耳其语:Token 数量减少了 1.3 倍(从 39 减至 30)Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
意大利语:Token 数量减少了 1.2 倍(从 34 减至 28)Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, è un piacere conoscerti!
德语:Token 数量减少了 1.2 倍(从 34 减至 29)Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
西班牙语:Token 数量减少了 1.1 倍(从 29 减至 26)Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
葡萄牙语:Token 数量减少了 1.1 倍(从 30 减至 27)Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
法语:Token 数量减少了 1.1 倍(从 31 减至 28)Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
英语:Token 数量减少了 1.1 倍(从 27 减至 24)Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

模型安全与限制

我们在设计 GPT-4o 时已内置了跨多种模式的安全功能,这包括过滤训练数据和在训练后期优化模型行为等技术手段。此外,我们开发了新的安全系统,为语音输出增加了额外的保护。

依据我们的准备框架自愿承诺,我们对 GPT-4o 的网络安全、化学生物辐射核(CBRN)、说服能力及自主性等方面进行了评估,结果显示其风险等级均不超过中等。此评估包括在模型训练过程中进行的系列自动化及人工评估。我们测试了模型安全措施实施前后的版本,通过自定义的微调和提示来深入探测模型的能力。

GPT-4o 还经历了 70 多位专家的广泛外部红队测试,这些专家来自社会心理学、偏见与公正、误信息等领域,旨在识别新引入或增强的风险。我们根据这些经验建立了安全干预措施,进一步提升与 GPT-4o 互动的安全性,并将持续对新发现的风险进行缓解。

我们明白,GPT-4o 在音频方面带来了多种新的风险。现在,我们开始公开发布文本和图像输入以及文本输出。未来几周和几个月,我们将专注于构建技术基础设施、通过后期训练提高可用性,并确保其他模式的安全发布。例如,初期阶段,音频输出将限于预设的几种声音,并且严格遵守我们现有的安全政策。我们将在即将发布的系统卡中详细介绍 GPT-4o 所有模态的信息。通过对模型的持续测试和改进,我们识别了存在于所有模态中的一些限制。

我们期待您的反馈,帮助我们识别出在哪些任务中 GPT-4 Turbo 仍然表现优于 GPT-4o,以便我们继续对模型进行优化。

模型可用性

GPT-4o 标志着我们在推动深度学习技术边界方面的最新进展,此次更侧重于实际应用。过去两年,我们在整个技术栈的每个层面上都进行了效率优化。这项研究的首批成果使我们能够向更广泛的用户提供 GPT-4 级别的模型。GPT-4o 的文本和图像处理功能从今天开始已在 ChatGPT 中逐步推出。我们向免费用户和 Plus 用户提供 GPT-4o,后者的处理量限制提高了 5 倍。在接下来的几周内,我们将在 ChatGPT Plus 中推出搭载 GPT-4o 的 Voice Mode 新版本的 alpha 测试版。

开发者现在也可以通过 API 访问 GPT-4o,作为文本和视觉模型。相比 GPT-4 Turbo,GPT-4o 的处理速度提高了两倍,成本减半,处理量限制提高了 5 倍。我们计划在未来几周内向 API 中的一小部分可信伙伴推出 GPT-4o 的音频和视频处理能力。