2024-05-14 12:37
北京时间5月14日凌晨,OpenAI在线上举办了“春季更新”活动,推出新旗舰模型“GPT-4o”。GPT-4o中的"o"代表“全知”,是朝着更自然的人类与计算机交互迈出的一步,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。
据了解,GPT-4o支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。GPT-4o对音频输入的响应时间最短为232毫秒,平均为320毫秒,这与人类在对话中的响应时间相似。在录播视频中,两位高管还做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。