研究显示ChatGPT在会计考试中不如大学生

3 0 0

上个月，OpenAI 推出了最新的 AI 聊天机器人 GPT-4，并声称该机器人在各种考试中表现异常出色，比如律师考试，研究生入学考试等。然而，根据美国杨百翰大学领导的一项研究，ChatGPT 在会计考试中的表现远不及人类，甚至还会一本正经的胡说八道，为错误的答案辩解。美国杨百翰大学的会计教授伍德和他的团队决定对 ChatGPT 进行一次测试，看看它能否回答大学会计课程的考题。他们在社交媒体上发起了一个号召，吸引了来自 14 个国家 186 所教育机构的 327 位合作者参与。他们共提供了 25181 道会计考题，涵盖了会计信息系统、审计、财务会计、管理会计和税务等领域。他们还邀请了 BYU 的本科生（包括伍德的女儿杰西卡）向 ChatGPT 输入了 2268 道教科书上的考题。结果显示，ChatGPT 的表现虽然有亮点，但总体上还是不及学生水平。学生的平均分是 76.7%，而 ChatGPT 的平均分只有 47.4%。在 11.3% 的问题上，ChatGPT 的得分高于学生平均分，尤其是在会计信息系统和审计方面。但是，在税务、财务和管理方面，ChatGPT 就显得力不从心，可能是因为这些领域需要更多的数学运算能力。在问题类型上，ChatGPT 比较擅长判断题（68.7% 正确率）和选择题（59.5% 正确率），但是在简答题上就很吃力（正确率在 28.7% 到 39.1% 之间）。一般来说，对于需要更高层次思维的问题，ChatGPT 更难回答。有时候，ChatGPT 甚至会为错误答案提供权威的解释，或者对同一个问题给出不同的答案。“它并不完美，你不能指望它能做所有事情。”杰西卡说，“仅仅依靠 ChatGPT 来学习是愚蠢的。”研究人员还发现了一些其他有趣的现象：ChatGPT 有时候不知道自己在做数学题，会犯一些荒谬的错误，比如在减法问题里加两个数，或者除法算错。ChatGPT 经常会为自己的答案提供解释，即使它们是错误的。有时候，ChatGPT 的描述是正确的，但它却选择了错误的选项。ChatGPT 有时候会编造事实。比如，在提供参考文献时，它会生成一个看起来真实的参考文献，但其实完全是虚构的，甚至有时候连作者都不存在。尽管如此，研究人员相信，在未来的版本中，ChatGPT 会在会计问题上有所进步，并解决上述问题。他们认为最有前景的是，这款聊天机器人可以帮助改善教学和学习，比如设计和测试作业，或者用于草拟项目的部分内容。“这是一个反思的机会，我们要看看我们是否在教授有价值的信息。”研究的合作者之一，BYU 的会计教授拉森说，“这是一种颠覆，我们需要评估我们接下来该怎么做。当然，我还是会有助教，但其工作内容会有所不同。”这项研究发表在《会计教育问题》杂志上。