竞品还在追赶,OpenAI 用 GPT-4 飚赢自己
赶在百度“文心一言”发布前一天,OpenAI祭出了GPT-4,这对于百度、谷歌们来说,可能是一个重大打击。
人们已经领略过GPT-3.5加持下的ChatGPT,但GPT-4比“前辈”更强大,它具有更高的可靠性和准确性,能够读懂图片,甚至还能角色扮演。目前,GPT-4已被应用到ChatGPT和Bing上,再一次刷新外界对AI的能力认知。
GPT-4越耀眼,谷歌、百度等竞争对手们便越焦虑。毕竟,其他公司忙着对标GPT-3.5时,OpenAI快速将大模型升级为GPT-4,一骑绝尘的样子丝毫“不讲武德”,像一个孤独求败的杀手,眼望着挑战者的到来。
GPT-4打败GPT-3.5
知名KOL和菜头说,因为OpenAI在3月15日凌晨发布了GPT-4,他和他的一些老朋友都没睡好,微信里的消息提示此起彼伏,“感觉像是回到了乔布斯还在世的时候,大家相约线上看苹果发布会的那些夜晚。”
北京时间3月15日凌晨,GPT-4发布受万众瞩目,这是采用GPT-3.5的ChatGPT火爆后的必然结果。看客们想要知道,它比GPT-3.5到底强多少?人们甚至没有兴趣拿它来对比别的同类产品,因为能站在同一起跑线上与之对比的还没有出现。
OpenAI很了解围观者的胃口,在那场更像是产品演示的发布会里,开发者一上来就让GPT-3.5和GPT-4分别尝试回答同样的问题。结果,熬夜的人没白等。
一开始,OpenAI的开发者复制了一篇博客文章,并交给了GPT-3.5,让它进行总结,要求是每个单词都要以“G”开头。结果GPT-3.5直接选择了放弃。轮到GPT-4,它快速地给出了答案,完全符合要求。随后,开发者又让它尝试以字母“A”开头回答同样的问题,GPT-4又做到了。
这还没完,如同提升“节目效果”一样,开发者直接和Discord社群互动起来,选取了网友提出的字母“Q”。再来一遍,GPT-4依然轻松拿捏。
这轮演示,OpenAI特地选取了一个超过GPT-3.5“阈值”的问题来测试,意在表现GPT-4的能力进化水平。正如官方所解释的,在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。
为了全面且可视化地评估GPT-4的能力提升程度,OpenAI展示了它与GPT-3.5共同参与了多项模拟考试的情况,包括统一律师资格考试、研究生入学考试、医学知识自测、艺术史、微积分等等,结果GPT-4几乎碾压了GPT-3.5。比如,在模拟律师考试中,GPT-4的分数在应试者的前10%左右,而GPT-3.5 的得分排在倒数10%左右。
各项考试中GPT-4领先GPT-3.5
如同苹果发布会每次都会带来一个大彩蛋,GPT-4也带来了一项跨越式的功能——接受视觉输入。这意味着,GPT-4能够看懂图片了。
官方解释:GPT-4在给定由散布的文本和图像组成的输入的情况下,可生成文本输出(自然语言、代码等)。换言之,给它一张带有文字的图片,并提出要求,它就能给出想要的结果。
在演示中,开发者画了一张网站的草图,要求GPT-4用简短的 HTML/JS 将这个草图变成彩色的网站。仅仅几秒钟后,GPT-4就带来了一个完整的网页。
不仅如此,GPT-4还能尝试理解一些流行的“梗图”。如下图所示,让它解释这张图的笑点在哪,GPT-4不但Get到了,还一本正经地解释了一通。
GPT-4解释“梗图”的笑点
GPT-4的识图功能只有体验过才能知道是否如OpenAI说得这么厉害。遗憾的是,目前视觉输入还没有完全开放,仅在一小部分开发者中进行测试。OpenAI创始人Sam Altman解释称,此举是为了防止可能出现的安全性和伦理问题。
GPT-4还有一项特别本领,它可以扮演不同的角色和说话的方式,这与具有固定语气和风格的GPT-3.5不同。基于这个功能,用户可以让GPT-4实现角色扮演并定制它的性格。
就像当年的一代代新款iPhone给人们带来惊奇感受,GPT-4展现了比它的上一代更强大的能力。不过,它也并不完美。与GPT-3.5一样,GPT-4有时仍会虚构事实,“一本正经地胡说八道”还不能完全避免。OpenAI宣称,在内部对抗性真实性评估中,GPT-4的得分比GPT-3.5高40%,显然,它还有很大的提升空间。
谷歌、百度更焦虑了
OpenAI正和当初的苹果走在一样的道路上:成为引领者,并在别人苦苦追赶时,又猛地拉开一大截。
就在GPT-4发布前,互联网巨头谷歌也在YouTube上发布了一支预告片,宣布将AI整合到Gmail电子邮件和GoogleDocs文档等办公应用中。谷歌在视频中费了很大力气展示相关功能,告诉人们可以在文件中进行头脑风暴、校对、写作和改写;利用幻灯片中自动生成的图片、音频和视频,将创意构想变为现实等。
然而,“一点水花都没有,几个小时之后GPT-4开发布会,人一下子就全跑光了。”和菜头如此描述他的观察。从社交网络上舆论风向看,谷歌的AI新动作被铺天盖地的GPT-4消息所淹没——无论是海外的推特还是国内的微博,GPT-4都登上了热搜榜。
和谷歌一样被冷落的AI玩家还有Meta。不久前,Meta公布了旗下全新的AI大型语言模型LLaMA,宣称可帮助研究人员降低生成式AI工具可能带来的“偏见、有毒评论、产生错误信息的可能性”等问题。Meta还放话,这一大模型仅用约1/10的参数规模,就能匹敌OpenAI GPT-3、谷歌PaLM等主流大模型的性能表现。这一新动态在GPT-4到来后,没有在舆论场上再露脸。
OpenAI的光芒越盛,其他科技巨头们就越焦虑。
2月,仓促应战ChatGPT的谷歌还闹出过笑话,其开发的聊天机器人Bard首秀“翻车”,答错问题导致其市值一天之内蒸发约1000亿美元。
在国内,百度也在加急研发与ChatGPT类似的聊天机器人“文心一言”。按照预告,百度将在今天下午举办有关文心一言的新闻发布会。在许多人也许还在好奇文心一言能否比肩GPT-3.5模型下的ChatGPT,结果,OpenAI赶在百度发布会前带来了更强大的GPT-4。
别人忙着对标GPT-3.5时,OpenAI如同冷血杀手一般,亲手击败了自己出品的GPT-3.5。同类竞争公司们有多焦虑,网友们已经自行脑补出了各种“梗图”。
“那种提刀在手,环顾天下,寂寞如雪的感觉,让我忍不住感慨:即便在美国本土,这件事也和绝大多数美国科技公司无关了。”和菜头形容,OpenAI迭代的速度让他感觉到心惊肉跳,“所有试图追赶的人和公司,目前落后进度最少两年。在这种AI爆发式增长的时代,两年就是三辈子。”
回顾GPT的发展,它用5年时间里完成了从量变到质变的飞跃。2018年,GPT-1首次发布,当时的模型参数只有1.17亿个,随后的GPT-2将标准提高到15亿个参数,GPT-3和GPT-3.5的神经网络直接提升到1750亿个参数,而到了GPT-4,采用的参数超过2000亿个,并利用了超过200万个数据源(GPT-3.5使用了45万个数据源),包括互联网上的各种文本、图像、音频和视频数据。
相比之下,2022年初谷歌曾披露其LaMDA 模型参数为1370亿个,不如当时的GPT-3多。而据百度透露,文心一言大模型参数规模达到2600亿,相比GPT-4更多,这或许还能让它留给人们一些期待。
不过,有专家指出,模型参数并不是决定AI聊天机器人能力的绝对因素,在此基础上,对数据的清洗和标注、模型结构设计、训练推理的技术积累都会决定最终产品的表现。
GPT-4甚至不用担心产品化了,它已经应用于ChatGPT和微软的搜索引擎必应(Bing)上。一骑绝尘后,尘土里若隐若现着谷歌和百度。
5 Top Cryptos to Invest in Now But Which Altcoins Show the Most Promise for Exponential Returns This Quarter
Discover 5 top cryptocurrencies for exponential returns this quarter, including Qubetics, Solana, Po...
Bitcoin ETF Regains Momentum With Fidelity’s FBTC Leading, BTC Recovery Ahead?
The US Spot Bitcoin ETF regained momentum on Thursday, December 26, as evidenced by the change in fu...
Decentralized Exchanges Surge: PancakeSwap Leading the Market & Weekly Trading Volume Reaches $ 116.95 Billion
Decentralized exchanges have seen massive adoption, with total weekly trading volume scaling to an a...