GPT-4o，最聪明的语音助手来了？

北京商报 | 记者杨月涵李永兴

2024-05-14 12:37

热点关注

北京时间5月14日凌晨，OpenAI在线上举办了“春季更新”活动，推出新旗舰模型“GPT-4o”。GPT-4o中的"o"代表“全知”，是朝着更自然的人类与计算机交互迈出的一步，新模型使ChatGPT能够处理50种不同的语言，同时提高了速度和质量。

据了解，GPT-4o支持文本、音频和图像的任意组合输入，并生成文本、音频和图像的任意组合输出。GPT-4o对音频输入的响应时间最短为232毫秒，平均为320毫秒，这与人类在对话中的响应时间相似。在录播视频中，两位高管还做出了演示：机器人能够从急促的喘气声中理解“紧张”的含义，并且指导他进行深呼吸，还可以根据用户要求变换语调。

编辑：张绪旺

打开APP阅读全文