从人机交互角度聊聊ChatGPT-4o

前天半夜ChatGPT-4o的发布会应该未来几天AI圈子最有热度的话题了，其中几条更新其实可以从人机交互的角度解读一下。

首先我们还是先来看看GPT-4o更新的主要内容（只关注交互角度解读可跳过）：

多模态交互能力：ChatGPT 4.0支持图像和文本输入，并能输出文本，具备多模态交互的能力。这意味着它可以理解图像内容，并生成字幕、分类和分析等操作。
自然语言理解能力提升：在自然语言理解方面有显著提升，这使得ChatGPT 4.0能够更好地理解用户的输入，并根据用户的语境提供更准确的回答。
上下文长度增加：ChatGPT 4.0的上下文长度得到增加，这使得模型在处理长篇对话时表现更佳，能更好地理解整个对话的背景和上下文，从而给出更准确和恰当的回答。
数据分析及可视化作图功能：通过直接打通相关功能模块，ChatGPT 4.0能够利用自然语言交互，根据知识库、在线检索到的数据进行数据分析及可视化作图。
DALL·E 3.0功能：ChatGPT 4.0引入了DALL·E 3.0功能，允许用户上传图片并在其上进行查询，可以直接从必应浏览，并直接使用ChatGPT中的DALL·E 3.0功能，在图片上进行创作。
模型架构和训练数据的进步：开发者在这个版本中引入了更先进的模型架构、更多的训练数据和更多的语言数据，将聊天机器人的性能提升到了一个新的高度。
API开放和价格优惠：新版本GPT-4 Turbo支持128k上下文，知识截止更新到2023年4月，视觉能力、DALL·E3，文字转语音TTS等功能全都对API开放，同时API价格还打了3-5折。

这其中的第1、2、3、5点都可以从人机交互的角度聊一聊。

第1点：多模态交互能力

今天作者也看了一些写GPT-4o更新的文章，有些人仅仅把多模态交互能力理解成了我们可以不仅仅使用文字和GPT交流了，这么理解实在太小看多模态交互能力了。

要知道，人类通过文字表达和声音表达，即使是完全同样的文本。所包含的信息也有很大的差别。文字只是静态的信息，而声音包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。

同样是【你好】，文字只能表达1种含义，而声音可能能表达4-6种。对于程序来说，多模态交互意味着从更多来源获得信息（指视、听、文、环境等来源）。也意味着获得更多信息（例如刚刚所说的声音维度的语音、语调、音量、语速、停顿、重音）。

从多来源获得信息并获得更多信息，GPT就可以缩短推理、判断等过程，更快速的给与用户回复。这就像是用户自动的把提问描述的更详细了，把自己的要求说的更清楚了，如此一来GPT给与反馈的速度和质量自然会有对应的提升。（当然同样也有模型方面带来的提升）

除了声音之外，GPT-4o的多模态交互能力还包括视觉理解能力，例如能识别图像中的人脸，分析性别、年龄、表情等信息。这同样是我们刚刚所说的从更多来源获得信息以及获得更多信息。

以上是多模态交互能力中，人向GPT输入过程中的意义，那么对于人机交互的另一部分：GPT向人输出的阶段，同样意义非凡。

GPT-4o可以根据需要以最合适的模态进行回应，在之前GPT只能以文字进行回复，但之后则可以是文字、声音、图像。声音模态的意义是支持更多交流场景以及对无障碍交互的包容。图像的意义就不用多说了吧，无论是取代了命令行界面的图形化界面，还是你晋升答辩时准备的PPT，都能体现图像相对于文字的优势。

第2点：自然语言理解能力提升

如果说多模态交互能力代表了输入和输出这两个阶段。那自然语言理解能力就代表了【处理】这个阶段。当GPT从多来源获得信息后，下一步就是理解这些信息，理解过后才能给出回复信息。自然语言理解能力的提升意味着GPT-4o对用户意图的识别更加准确了。那么自然后续回复的内容、回复的模态都会有更高质量的结果。

第3点：上下文长度增加

这一点的意义首先体现在长篇对话上，我们可以类比人与人之间的交流方式，两个相识了多年的朋友，可能他们一句很短的对话就可以包含非常大的信息量，例如：

张三对李四说：你上回那个设计方案真是太牛了！

这句话本身没提及但张三和李四都能理解的信息可能有：

设计方案的具体内容
设计方案的效果
时间点（上回）

如果想清晰的表达以上的1、2、3包含的具体信息，可能需要上千字或十分钟的对话才能说清楚，但由于这些信息都已经被储存在人的记忆中，两人在交流的过程中就可以省略很多详细的描述和前置条件，用一句话表达大量信息。

对于GPT-4o而言，可记忆的上下文长度增加就意味着他变成了一个对你更熟悉的程序，所以当用户与GPT-4o交流时，就可以像张三和李四交流那样使用更少的信息交流更多的信息，同时能够保障交流质量。

要注意的是，刚刚我使用了对你更熟悉的程序这样的描述，而不是对你更熟悉的朋友这样的描述，这里面关键的区别有两方面，第一方面是所谓的上下文长度，可以类比人与人相识的时间和交流的信息总量、了解程度。第二方面是

我们可以畅想一下，如果现在的新生代儿童从很小的年龄就开始使用AI工具，并且AI工具附着在便携式智能设备上，以多模态与用户同时感知周围环境，再加之GPT-4o的可贯穿数十年的可记忆上下文长度。这样的AI可能会成为用户最熟悉的朋友，甚至远超父母、家人。如果再给与这个AI相应的硬件，那几乎可视为智械族了~

第5点：DALL·E 3.0功能

文生图能力以及对图片的智能编辑能力已经是很多其他产品早已具备的了，不过GPT-4o这次更新帮助用户节省了之前都是由用户操作的不同数据类型转化的操作，改为由GPT-4o代替，对用户来说同样是操作效率的提升。就像我们之前如果在某张图片上看到了一个新概念，那可能需要用打字或ocr的方式将图片转化成文字再继续使用。而GPT-4o以后将为用户省掉这个过程。

其他的像创意工作、广告制作、产品设计、教育演示等方面的意义就不再多说，市面上已经有很多类似的产品了。

在整个发布会之中，还有一个令用户们wow的点是GPT-4o的响应时间仅为232毫秒（平均320毫秒），几乎达到了与人类实时对话的水平，显著优于前代模型的延迟表现。

其实我们可以从以上的解读中思考一下，为什么GPT-4o的响应时间得到了如此大的提升？

第1点：意味着GPT-4o获取信息的速度更快了，信息量更多了。
第2点：意味着GPT-4o理解这些信息更快了
第3点：意味着GPT能从上下文获得更多用户没有直接表达的信息

综合以上3点提示再加上本身模型能力的提升，GPT-4o的响应时间达到232毫秒也就容易理解了。

当GPT-4o的响应时间达到了人类与人类对话的水平时，很多应用场景的想象空间就更大了。具体作者想到了如下几方面：

实时交互性增强：这样的响应速度使得人机对话接近无缝对接，几乎消除了传统人工智能助手在处理请求和提供回复之间的感知延迟。用户在与GPT-4o交流时，会感觉像是在与另一个真实人类进行自然流畅的对话，可以大大提升了交互的真实感和满意度。
用户体验优化：更快的响应时间减少了用户等待反馈的心理负担，使得交流过程更加舒适和高效。这对于需要快速反馈的场景尤为重要，比如紧急情况下的信息查询、即时决策支持或者快节奏的商业沟通。并且更加与人与人的交流相似了，想象一下我们在和朋友聊天的时候，一般不会等个3秒再说话吧?
应用场景拓展：由于能够实时处理音频、视觉和文本信息，GPT-4o打开了通往更多应用场景的大门。例如，在客户服务、教育辅导、远程医疗、虚拟助理、游戏交互等领域，实时交互能力都是提升服务质量和效率的关键。

作者：杜昭

来源公众号：AI与用户体验

扫一扫微信咨询

联系我们青瓜传媒服务项目