ChatGPT参加GRE考试,竟然只考了316分!
2023-03-10 17:36:34
93 阅读

OpenAI推出的人工智能聊天机器人,“AI界的C罗”ChatGPT,彻底引爆了全球对人工智能的广泛关注!虽然它还不够成熟,但足以引起各行各业的重视,迎接一场全新的技术革新。
连马斯克也专门为它发了一条推特:“一个新世界来了,家庭作业再见!”

ChatGPT,简单来说就是一台“地表最强聊天机器人”,智商高达147:
比如,和它聊天时,它能精准判断你的用意,给出你期待的答案,因为它具备一定的逻辑和常识。
比如,它拥有堪比人类的流畅写作技能和逻辑思维。拉勾CEO就发布了一段视频,命令ChatGPT写了一段招聘行业的分析报告,要数据有数据,要分析有分析,前后只用了30秒。令人细思极恐,用它代替文案、运营人员貌似已经绰绰有余。

它还能写学术论文。据Nature统计,使用ChatGPT并将其列为作者的论文,最少有4篇,导致Narue这两天急忙下场:“用ChatGPT写作文可以,列为作者不行”。

曾有一名北密歇根大学的学生,用ChatGPT写出了全班最高分论文,导师觉得结构过于合理,逻辑过于严密,去质问了一下学生,才知道真相。
然而,我们用如此厉害的ChatGPT牛刀小试,参加了一次完整的GRE模拟考试,看看表现会如何呢?
题目部分,我们选择了考满分GRE官网GPO免费模考题,逐题录入,提交给ChatGPT回答,遇到特殊符号,图片也都尽可能处理成了ChatGPT能够识别的格式。
首先,通过记录ChatGPT的逐题答案,我们按照实际考试的算分标准,将错误率进行了换算,得到了以下考试分数——接下来,我们就具体看一下ChatGPT在各科的表现情况~
按理说,GRE数学题目的答案,是绝对客观的,但是,ChatGPT面对这些题目,还是犯了大量的错误。在Section Base(第一个算分Section,其中简单题、中等题、困难题都有),ChatGPT共计错了7道。要知道,实际考试中,Section Base错7道,几乎是踩线过,下一个Section自适应Hard。如果再多错1道,那么下一个Section根本无法进入自适应Hard,最终分数就根本不抱希望了。在Section 自适应Hard(第二个算分Section,只包含中等题、困难题),ChatGPT也是离了大谱,甚至出现了10-20连错的情况。

40道算分题当中,总计错了7+10=17道,根据GRE数学的算分标准,估计分数=170-错误道数17+1=154分。至于这些题ChatGPT犯错的原因,也是各种各样都有,比如有x-3比x-2大这种笑掉大牙的明显bug——再比如,还有这种已经接近了正确答案,但是最后一步功亏一篑,莫名其妙选择了错误答案。最后,还有一些题目,虽然做对了,但是过程非常繁琐,可以借助了完全是超纲的,小题大做的没必要方法。这样的GRE数学分数,根据ETS官方公布的最新消息,百分位数值只有47 percentile,也即只超过了全球47%的考生,也远远达不到中国GRE考试数学的平均成绩。总而言之,目前阶段的ChatGPT,在GRE数学考试面前,还是弟弟,弟中弟,弟中弟中弟中弟。无论是题目理解,还是解题思路,还是解题速度,都完全达不到GRE数学考试高分同学的要求。
在Section Base(第一个算分Section,其中简单题、中等题、困难题都有),ChatGPT还是展示了实力,共计错了5道,要知道,Section Base错7道以内,下一个Section才有希望进入自适应Hard。在Section 自适应Hard(第二个算分Section,大多数是中等题、困难题),ChatGPT也是勉勉强强,再错了7道。40道算分题当中,总计错了5+7=12道,根据GRE语文的算分标准,估计分数=170-12+4=162分。
面对GRE填空单科题,ChatGPT发挥还不错,但是一旦句子长了起来,进入双空题,三空题,错误率明显上来了。而且,通过ChatGPT给出的答案,也可以看得出来,很多时候ChatGPT并不是根据逻辑选答案,而是根据句意,所以非常容易掉入陷阱选项。面对GRE填空六选二,ChatGPT也是错的离谱,完全不理解六选二题选答案的技巧与规律。
相较GRE填空而言,ChatGPT在GRE阅读科目的表现似乎更好一些。不过,仔细分析其中一些错题,同样可以看出,ChatGPT还是过多依赖语义,而不是依赖逻辑。一旦题目涉及的逻辑稍微复杂一些,ChatGPT马上就会败下阵来。而且,对一些句子功能题细节的把握还不到位,出现了各种错漏~这样的GRE数学分数,根据ETS官方公布的最新消息,百分位数值已经达到了90 percentile,也即已经超过了全球90%的考生,也远超中国GRE考试数学的平均成绩。总而言之,目前阶段的ChatGPT,在GRE语文考试面前,虽然逻辑能力还有待加强。但是还是展示出了绝对的实力,值得大家学习的!
Teachers' salaries should be based on their students' academic performance.Write a response in which you discuss the extent to which you agree or disagree with the claim. In developing and supporting your position, be sure to address the most compelling reasons and/or examples that could be used to challenge your position.老师评语:模板痕迹过重,分析深度不足,难以达到GRE学术写作要求规范,缺乏对方观点的分析讨论,段内论证也缺乏例证,力度不足。
The following appeared in a letter from a firm providing investment advice for a client."Most homes in the northeastern United States, where winters are typically cold, have traditionally used oil as their major fuel for heating. Last heating season that region experienced 90 days with below-normal temperatures, and climate forecasters predict that this weather pattern will continue for several more years. Furthermore, many new homes are being built in the region in response to recent population growth. Because of these trends, we predict an increased demand for heating oil and recommend investment in Consolidated Industries, one of whose major business operations is the retail sale of home heating oil."Write a response in which you examine the stated and/or unstated assumptions of the argument. Be sure to explain how the argument depends on these assumptions and what the implications are for the argument if the assumptions prove unwarranted.老师评语:照应了写作指令,清楚地指出并论证攻击了典型逻辑错误,较好地完成了任务,不过同样存在模板痕迹过重,而且非常生硬的情况。
怎么样,ChatGPT的表现,和大家的预期一致吗?欢迎分享你的观点!加油吧,同学们~准备申请留学院校的宝子,既然下定了决心,咱还是需要过硬的标化成绩才行!所以赶紧将备考GRE/托福早早提上日程吧~