您现在的位置: 首页 » 质量聚焦

回顾 | AI时代,通识教育如何变革?“清华通识说”揭秘未来教育新边界

本期“清华通识说”聚焦AI技术在高校通识教育教学中的现实应用和未来场景,特邀大模型团队专家和各领域通识课程教师作分享。

以下是分享实录——

c2701ee022a19cc86ad7845c698ba5b.png

人工智能的概念提出于20世纪50年代,当时,科学家们已经开始探索如何让机器像人类一样去思考、像人类一样去完成任务。到目前为止,人工智能的发展大致可分为四个阶段:

20世纪50年代到90年代的符号学习阶段;

20世纪90年代到21世纪前十年的统计学习阶段;

2010年-2017年,深度学习的发展极大地加速了人工智能领域进程;

2018年后,大规模预训练模型被视为实现通用人工智能的“基础模型”。

这次我们应用于教学领域的生成式人工智能就有赖于基于深度学习技术的预训练大模型。

从底层逻辑来说,前向网络是深度学习领域较为人所知的一种技术原理,它揭示了深度学习模型的基本概念。Transformer模型是目前最为广泛应用的一种深度学习模型,它能通过输入前序,对下一个字符的最大似然估计和后验采样,从而实现对后序的预测,我们熟知的ChatGPT和智谱清言就有赖于此。

此外还有用于“文生图”的扩散模型,它能在前向阶段对图像逐步施加噪声, 直至图像退化变成完全的白噪声, 然后在逆向阶段学习从噪声还原为原始图像。

从根本上说,生成式人工智能的快速发展离不开大量的高质量数据。所谓“Magic happens with scale”,只有数据的尺寸快速增长时,模型的犯错可能性才能实现快速下降,其能力才能实现上升。这也是为什么人工智能在1950年代提出,到2023年开始才广泛进入大家的生活。

随着智能时代的到来,人工智能赋能教育也成为了世界高校争先占领的新高地。2024年QS前100排名的101所高校中,有71所高校发布了AI应用于教育的指南,这意味着大约70.30%的顶尖高校正在积极参与人工智能与教育的融合。

2023年9月28日,清华大学教务处正式启动“清华大学人工智能赋能教与学试点课程工作方案”,8门试点课程率先应用生成式人工智能部署AI助教。这一系统的定位首先是答疑解惑,即为同学们提供7*24小时的帮助;同时提供评价引导,帮助同学分析同学当前知识掌握中的薄弱点或作业中暴露出的短板。我们对于助教系统的定位不是“高高在上”的,给同学们造成“我问的问题是否不好”的心理负担,而能在伴学互动中与大家共同成长。最终,这种互学是为了鼓励同学们找到自身兴趣和追求,并以此为导向开展自主探索。

5370652122f3a30916b23f8644b734f.png

图|2024年QS前100排名高校发布AI指南的情况

各位教师最关心的大概是这个助教系统到底是怎么开发出来的。正如上面所说,高质量的数据最为关键。对此,研发团队收集了大量教材书籍、课程讲义、论文文献、习题批改等非结构化数据,以知识图谱、知识库、图文对、问答对、代码化解题过程等形式,自动抽取为结构化数据,针对不同课程需求对预训练模型进行微调,由此形成针对特定课程需求的垂直模型。

这一技术路线有几个关键点。在生成时,提示词工程是一种常用的低成本方法,我们可以通过给予模型更精确的指令,让它的输出更符合场景需求;基于检索的生成增强是一种中成本的方法,可以通过自动在模型输入指令中加入基于教材、文献等提取的知识点帮助模型生成更符合问题需求的内容。有监督微调则是一个相对高成本的方法,它主要在训练中使用,我们可以通过问答对的形式为预训练模型输入特定领域的知识,使大语言模型能将原有知识以更精确恰当的方式表述出来。

b925c1f434e9f24f7e8e205eda6a241.png

图|提示词工程的应用

8b31d112932dd937ff7dfee1381522b9.png

图|基于检索的生成增强

a2e427b9950b7284cb0682a73bfff7ef.png

图|有监督微调

目前,清华AI助教系统已经能实现基于知识点的问答、主动出题、自动生成写作范例、代码改错、自动评价、知识点标注与提示等多项功能。未来,我们将在现有AI助教基础上,进一步探索新一代的智能化教学模式。如在慕课教学方面,现有的在线教育仍然受制于教师单向完成内容创作、学生被动完成教学过程等系统形式上的局限,而在AI智能教育阶段,我们将能通过模型自主完成领域知识抽取与复用,让学生在主动交互过程中完成教与学。

从横向来看,全球在人工智能赋能教育方面已有多种动作。Open AI拥有最优秀的生成式人工智能系统,尚在寻找教育领域内的应用与合作伙伴;各类创业公司主要关注K-12教育,但无核心大模型技术;各大高校则更多基于ChatGPT开发特定课程工具。与之相比,清华大学的智能教学基于自主知识产权的预训练大模型和最优秀的教师与学生群体,整个过程自主可控,能最大程度基于课程进行深入研发和精细微调,满足师生需求,从这一意义上可以认为是全球高等教育领域内非常独特的实战尝试。

eb9a675f9c240ec329e5ea770956918.png

科学课组通识课    城市科学

15374e36ec1d1f87c183212c91b1504.png

 


新城市科学”这门课主要通过课堂讲授、线上MOOC、现场教学、课堂研讨、特邀讲座等多种方式,带领同学们探讨最新科技革命下城市科学的前沿进展。课程在2019年就被纳入了清华大学AI创新创业能力提升证书课程,其三个主要模块——新的城市科学、新城市的科学和未来城市——也与人工智能紧密相关。

以此为基础,2023年秋季学期,“新城市科学”作为AI赋能教学的八门试点课程之一,主要从文本信息、知识图谱、功能卡片三个方面支持智谱清言ChatGLM大模型的微调训练,探索课程AI助教系统开发。

—— 在文本信息方面,我们的主要输入包括《新城市科学概论》教材、MOOC课件、1240篇中英文论文和280个报告及案例。

—— 在知识图谱方面,我们结合教育部虚拟教研室构建了6个层级、57个知识单元、138个知识点的知识图谱。

—— 此外,我们也从课程大作业的实验计划、课程报告、改造方案3部分,以及问题与评价、出题2个综合需求出发,定义了5个功能卡片,开发出25个问题模板。

295a3ab363c12bfc5c84fda6d5182051.png

图|文本信息梳理

81c39bdacd72b49ff9fccbb4fd25d7e9.png

图|功能卡片/问题模版定义

在使用过程中,学生可以通过选择功能卡片进入页面,输入场景相关提示词,系统会自动生成针对该场景的特征分析,帮助学生获得相关知识、启发研究思路,从而支持个性化学习。系统于2023年12月完成初步开发,使用前的问卷调研显示,大部分同学比较看好智谱清言ChatGLM(AI助教系统)的课程使用价值。

今年1月的使用情况后评价(学生自评)表明,在24位同学中有20位使用了ChatGLM来辅助大作业完成,这体现在信息收集、理解概念、分析城市现象、搭建研究框架、润色报告等环节。同学们普遍反映体验较良好,但同时也提出了增强模型对特定对象的理解分析能力、增强上下文记忆能力、改进模型对话灵活性等建议。

d6e87c66c82eb6e13f064d335d01f28b.png

图|AI助教系统使用场景

下一步,我们希望能将更多的实践和设计案例图输入AI助教系统,使其具备更强大的“文生图”专业能力,从而更好地服务于课程的第三模块——“未来城市”。我们也希望能探索AI助教系统与MOOC的结合,使其惠及更广泛的用户群体,并从数字人、课件更新、辅助出题、教材更新等角度更好地辅助教师群体。

就目前的探索而言,我个人有几点体会与大家探讨:

第一,知识图谱构建是研发“AI助教”的一个可选环节,大家可以根据课程需要采纳;

第二,“AI助教”的输出结果不一定是完全准确可靠的,现阶段它主要可以从开拓视野、提高效率的角度与通识教育的目标相契合。

此外,未来能否基于更多大模型工具开发立体式“AI助教”,是应该针对每个课程开发定制化“AI助教” 还是发展通用“AI助教”,这些问题也值得我们进一步讨论。

通识必修课   “写作与沟通”课程

eb6875b73d5e884c83f75be634eef76.png



在ChatGPT等大语言模型刚兴起时,人们常抱有的一个疑问是——人工智能是否能代替人类的写作?我们很快发现,这种“自动化幻想”是错误的,人工智能产出的东西并不符合人类的写作需求,但作为“辅助学习工具”,它又对写作有重要意义。因此,在介绍课程部署AI助教系统的过程之前,我想先从三个关键词来谈一谈人工智能与写作课的关系。

第一,底层逻辑。清华写作课的底层逻辑是训练学生的批判性思维、逻辑思维和创新意识,AI要辅助写作课,就必须能帮助学生提升这几方面的能力。在这个过程中,师生也没有一秒是“躺平”的,我们只有不断训练和激活自己的能力,才能和人工智能互学发展。

第二,模糊性。人们惯常期待人工智能给人类提供“精确”反馈,而事实上,人工智能的回答有时是模糊的。对于写作课来说,由于思维和探索本身就没有正确答案,因此精确性不成担忧,模糊性也不成问题,关键在于我们要如何在AI提供的可能性范围中找到走下去的方向。

第三,元思维/元认知。在AI辅助写作课的过程中,同学们要不断与AI对话以推进写作,这个“反复思考”的过程其实也是探索“如何思考”的过程,而这种在和AI对话中获得的反思则指向了思辨对话的元思维和元认知,最终将有利于我们达成写作课的底层逻辑。

在具体实践中,写作课对人工智能的采纳经历了从通用AI到专用AI的变化历程。

就通用AI而言,在第一堂课上,我们会明确将AIGC列为课程的五个支撑性力量之一(其余四项为学习共同体、主题读库、助教助理、图书馆课程),为AI在课程教学中的作用定性。在第四堂课上,我们又将基于前几节课关于写作思辨的探讨,进一步对AI进行定位,即AI不应凌驾于“我”之上,而应发挥“伴学”角色,陪大家开脑洞、试错、激活灵感。总结而言,通过对话AIGC,同学们应当获得的是事实、概念、方向和学理;在此过程中,主体性时刻在场是前提,批判性思维是推动力,创新性写作的“最后一公里”只能由我们自己去走。

978b2aa898c0a4e494029e912c66aaec.png

图|AIGC在“写作与沟通”课程中的角色定性

在专用AI方面,目前写作课AI助教的作用主要是担当“批改助手”——AI先对学生的文章做出评价,再由任课教师结合AI评价形成反馈。未来,我们希望专用AI可以进阶为“个性化AI助手”,一方面基于不同写作课教师的偏好和不同主题的需要定制,另一方面不仅能反馈写作、开展知识对话,还能反馈阅读思考、对整个教学进程进行把控。

图片

图|AI如何为学生选题“游戏中的作弊行为是否有意义”提供方向参考

最后,我也想留下一个主体性问题与大家共同思考。如果将来我们的生命会与AI这样强大的工具一起前进,日益突破人和机器的对话边界,我们需要如何理解和接受这种“人机紧密结合”的存在状态,尤其是,我们要如何认知对方的某个想法是来自机器还是来自于人本身?如果我们越来越多地以AI为介质开展对话,我们要如何判断在温和但又相对同质化的语言背后存在的实际情感?就像《斐德若篇》中苏格拉底所说:你可以相信文字好像有知觉在说话,但是等你想向它们请教,请它们把某句所说的话解释明白一点,它们却只能复述原来的那同一套话……

社科课组通识课   心智、个体与文化

22100060260ce84e6d12b98b7488ba6.png



“心智、个体与文化”对AI助教的探索与其他试点课程有所不同——我们希望以研究的方式检验一下AI给出的教学评价是否为学生所接受,并回答两个研究问题:

如何在师资有限的情况下,利用人工智能使得教学得到增益,解决“规模化”与“个性化”教学的矛盾?

如何借助人工智能实行个性化教育,让教育实现以学生为中心的个性化教育?在全球范围内,研究者们已经围绕AI助教的功能,提出了实现个性化及自适应教育、使用虚拟现实(VR)与增强现实(AR)模拟学习及教学环境、智能组卷或自动批阅作业及试卷、提供高效自动化互动及反馈等各类设想。具体到本课程来说,“心智、个体与文化”是一门全英文授课的3学分通识课程,希望以更科学、更人文、更国际的方式引领学生去探索心理学的奥秘。来自世界各地的同学将学习认知科学、社会心理学、感知与记忆、思维与决策等心理学主要领域,并通过解析经典实验和案例、课堂思辨与写作训练等,深入理解心理学的理论与实践,锻炼communication(沟通)、collaboration(合作)、critical thinking(批判性思维)、creativity(创造力)四大能力。因此,我们对AI助教的期待是——引导学生对写作进行刻意练习;协助完成批改作业;给予有针对性的建议和反馈。为了达到这个目标,在课程的前八周,我们主要对AI助教进行培训,使其具备真人助教的部分能力。首先,我们让智谱清言GLM大模型给学生的作业做出评价,但明显感觉其“机器味”很重,且比较不切题;于是,我们开始对它下达各种指令(prompt)进行调整,让它更能给出真人助教水平的评语。同时,我们也开始用提供教材、课件、专业论文等更有针对性的数据等其他方式训练大模型,从中生成内容上更有针对性的反馈。通过上述方式,我们已经训练出几个版本的AI助教,那么哪些版本是学生更喜欢的、既能做出全面评价又能提供积极鼓励的呢?我们做了一个单盲半结构化访谈,让同学们针对将真人助教、GLM alfa(GLM模型训练后的基础评分评价)、GLM betta(GLM加上与作业相关的关键词的无评分评价)、GPT4和GPT4 gamma(GPT4加入真人助教批改样例)五个版本的反馈评价,以此了解大家的选择倾向。在整体评价方面,我们把学生对于每周不同版本的作业反馈的排序以积分法的方式进行统计整理,排名第一的加5分,排名最后的加1分,以此类推。最后得出每个版本的平均分及综合排序。大家的评价是:GLM alfa>GLM betta>GPT4 gamma>真人助教>GPT4基线。通过后续访谈我们了解到,大家倾向于GLM alfa模型AI助教的主要原因是它所生成的反馈分点罗列得非常清晰,学生可根据个人的学习需求和习惯,快速捕捉反馈中对自己价值最高的信息;而直接给出评分的方式又比较符合学生想要快速了解自己文章质量的心理需求。当然,GLM alfa 和GLM beta模型两个版本的AI助教在反馈中给予的改进建议都较为新颖而有建设性,且会附上一些具体的例子,因此,抛开切题性或是参考性来说,它们对于学生展开深入反思是比较有帮助的。

图片

图|5个版本的整体评价得分

在维度评价方面,我们也请受访者针对每个版本的助教在各维度上进行评分,主要包括三个子维度:内容准确度(切题性)、结构清晰易懂度(易读性)、认同程度(可参考性);以及两个主维度:信赖度以及帮助性。GLM alfa在信赖度、帮助性和易读性上较有优势;GPT4 gamma则在切题性上领先,我们认为这可能与当前的评价篇幅较短、不易跑题出错有关。

83cb4e3ef15e6843299fe3a3450ca80b.jpg

图|5个版本的维度评价得分

总结来说,AI评语相较于助教评语,在清晰度、详细性上存在优势,可以辅助学生更好地发现不足;但也存在不能完全忠实于作业文本以及领域专业知识、没有完全适配于作业评价任务(倾向于以评价学术论文的标准评价作业)等不足。但无论如何,这一学期的使用印证了AI助教是可用的,并且能够有效减轻教师和助教的工作负担,让教师更能专注于课堂互动、教学设计、传道授业解惑,让助教更能专注于学情分析与综合评价。后续我们将着力提升GLM点评的具体性、忠实性和可定制性,也希望AI能更好地推动通识教育发展。