MDARK
第 901 期 ~ 第 1000 期

【睡前消息986.5】修复亲子关系 让千问AI辅导作业

评测千问AI做中学理科教学助手的能力。

今天11月份,阿里巴巴基于自己的千问大模型,把开源积累的成果提供给普通消费者。过去几年,千问出现在中文互联网新闻,基本上都和海外市场有关系。比如说新加坡的人工智能大语言模型,抛弃了某套方案,选择了用千问。或者日本企业开发自己人工智能,也把千问当成基底进行二次开发。在外媒报道里面,千问经常胜过ChatGPT,成为美国很多中小企业的首选。

今天,千问又做了一次更新,提供了学习大模型功能。这种专门服务中国家长的功能,在AI软件层面还是第一次。


千问AI:新一代家庭教育助手

按官方宣称,千问的学习模型主打功能是拍照答疑,融合了全球30多个国家考试体系和真题,可以给孩子解读知识体系和答题技巧。

另一个功能也符合中国家长管理孩子作业的习惯,作业批改。从小学到高中,所有全学科的作业都可以整页批改。印刷体的题目,孩子的手写体都可以识别。AI打完分,讲完题,还可以诊断学习的薄弱点,甚至可以让千问再出一套试题,重点提升。

就我个人层面来说,能够辅导学习的AI大模型非常重要。作为一个中学生的父母,我和很多观众一样,需要随时捡起中考和高考的经验给孩子讲解问题,但这就会遇到三个障碍。

首先,我是20世纪参加高考的,时间都过去一代人了,重新捡起来未免手忙脚乱。其次大家都知道,会做题不一定会讲题。或者说,孩子需要的并不是你用自己的理解把具体的难题做出来,而是分享背后的逻辑,帮他去对付其他问题。这就是师范类专业存在的理由,我没有读过师范,并不是个好老师。

第三就是时间问题了,把自己的逻辑放下,去靠拢另外一个人的思考方式,再把两套逻辑合并,哪怕是对自己的儿子,这消耗时间也有点太多了。

市面上有一些主流的拍题答疑软件,我自己也试用过,但是都不太满意。就拿题库来说,现在很多中学生试题不一定来自公开的题库,还有可能是学校老师自己写的,搜题准确度就不算高。一些AI软件也提供了答疑功能,但是经不起反复提问,讲得也不是容易出偏差的。学生还要重复提问,反而拉低了做题的效率。


物理学科辅导能力评测

所以我选择了评测这个千问拍题答疑,看看能不能帮我分担一些精力,尤其是提供超越具体题目的答疑能力。

比如说,我先用一个典型的物理结构测试,看看千问对高考的理解怎么样。这是我提问的草图,问题是:手持一个重物A,下端连接一个弹簧,弹簧另一端是重物B,A和B的质量一样,松手的时候会发生什么现象?

千问应该是使用了大量的中国义务教育题库训练,立刻就意识到这可以分解成两个高考题型。千问回答的第二步,就知道要把松手瞬间单抓出来分析。

它的结论是:松手瞬间的现象,A会以2G的加速度向下加速,B由于合力为零,加速度为零,暂时不动。这就是典型的高考选择或者判断题了,让学生判断放手瞬间,两个物体的运动趋势。

然后,我们看看千问的后续运动分析。整个系统将围绕平衡位置做简谐振动。由于A和B质量相同,弹簧连接,这相当于一个垂直的弹簧振子系统,但是初始条件特殊。

千问已经意识到了,一旦自由释放,AB接受同样的重力加速度影响,接下来的相对运动就是弹簧主导的简谐振动了。简谐振动的正弦曲线叠加在匀加速运动上,可以出很不错的解答题。

让我更满意的是,除了划分运动阶段,提供不同题型的解题之外,它也给出了类比理解和最终答案。这就超越了普通做题家的思路,也有耐心对学生给出通用化的指导。尤其是最后一句总结,体现了弹簧力不能突变特点,我很佩服。

既然谈到了简谐振动,这也是我们的高中教材故意压制学生的思考深度,制造了复杂提醒的地方。我来让千问回答一个中学思考过的问题,看看它怎么说。我的问题是:单摆明明是圆弧运动,为什么课本和大多数题目都称其为简谐振动?可以看到,千问给出了四个层次的回答和一个引导性的总结。这四个标题分别是:一、单摆的真实运动方程,二、小角度近似,三、为什么课本和题目都这么处理,四、大角度的时候会发生什么。

最后的补充还提到了椭圆积分的真实解读。看到这里,我只能对AI说一句:自愧不如。或者说,我不仅想拿它教自己的孩子,甚至还想让当年的自己也能够用上这套AI。

好的AI应该不只是就是论事,还要应付学生随时开脑洞的问题。所以我暂时就不管孩子了,把当年我用了几天时间才想清楚的一个中学物理问题拿来问AI:为什么电磁振荡公式和简谐振荡公式有形式上的相似性?为什么振荡图像都是一个正弦曲线呢?

大家可以自己试试AI是怎么回答的,这里我只读它给出的三句话。

所以,只要一个系统的行为由加速度或二阶变化率,与当前状态成正比且与方向相反这一规律支配,它的响应就必然是正弦振荡。

正弦函数之所以普遍,是因为它是线性时不变系统对自然振荡模式的响应。任何偏离平衡的小扰动,只要恢复力与位移成正比,即满足胡克定律或其等效形式,就会引发正弦振荡。

这种相似性不仅美丽,而且实用。它让我们可以用电路模拟机械系统,用机械类比理解电磁现象,体现了物理学的统一性和数学的普适理念。

作为曾经的国家物理竞赛一等奖获得者,我在现实中没有见过比千问更好的物理老师。


数学学科辅导能力评测

说了这么多物理话题,我换个科目再试试AI。这次我要找一点当年的中学课本没有的东西。现在人教版高中数学,选择性必修第二册,最后一个大知识点是:一元线性回归方程。

放到20世纪,线性回归处理数据是大学才有的内容。我就直接截取了一段没头没尾的教科书文字,让AI做出中学水平的解释。千问认出了这段话的意思,给我的回答是:

为了找到最好的直线,我们不直接看距离,而是把每个点的误差平方后加起来。这样可以避免正负抵消,然后选择让这个组合最小的那条直线。这种找直线的方法叫做最小二乘法,是中学数学或初中物理中常见的一种拟合方法。

这确实是符合中学生理解能力的一段话,但是我认为不够完全,决定替30年前的我追问一句:如果取平方是为了避免正负偏差抵消,我取四次方、六次方,效果会怎么样?

千问给出的回复让我感叹:中学教师如果不努力,被AI取代的日子可能很快了。这里我读其中一段:这会带来什么问题?一个点会被坏数据绑架。如果有一个点是测错了,比如说仪器故障,用四次方或者六次方,会让整条线拼命去靠近这个错误点,反而忽略了大多数正常数据。

对大误差太敏感。现实中数据总有一些小波动,平方已经能够适当惩罚大误差,而高次方会模型变得神经质,稍微偏一点就被当做天大的事。

结果不稳定。换一组类似的数据,可能拟合出完全不同的直线,因为高次方放大了随机噪音。

它还自己给我填了个问题:那有没有人用四次方、六次方呢?然后它自问自答:有的。在某些特殊场景下会用,比如:已知数据几乎没有异常值,特别希望严格压制大误差,比如说航天、精密制造,用计算机做复杂优化时。但这些属于高级应用,而且通常有更专业的损失函数,不只是简单四次方。

它也给出了类比理解,告诉我:想象里的拔河,平方是每个人按体重出力,很合理。四次方体重重的人,力气变成体重的四次方,一个胖子等于十个瘦子。结果,队伍的胜负完全由最重的那个人决定,其他人白努力。你希望这样吗?一般不希望。所以平方是一个刚刚好的选择。


AI在家庭教育中的社会意义与展望

总而言之一句话,无论家庭辅导还是课堂教学,千问在中国都已经超越了大多数成年人,更不要说未成年人。早一点用起来,解决自己的精力问题,可以提高教育效果。

这次试用千问的学习大模型给了我另外一个启发。最近的小红书和抖音有一个固定题材,可以获得很高的点赞。这类短视频内容都差不多,父母给孩子讲作业,结果怎么讲孩子都不懂。最后只能以父母发脾气结尾。视频内容可能是摆拍,但是题材肯定来自父母的普遍教育焦虑。

以我的经验,家长脱离应试教育以后,就算是某个学科专家教授,也很难具备讲题能力。甚至可以说,绝大多数家长根本就不懂怎么讲题。如果财力允许,父母都会给子女报名补习班,甚至请一对一的家教。至于说本来就没什么钱的父母,可能绝大多数情况都和网络上的搞笑视频一样,父母是越讲越生气,孩子越听越委屈。

这里我们回顾一下睡前消息308期的观点:商业化的补习班之所以长期存在,一个重要理由是相对公立教育更灵活。好的补习机构并不是把所有的孩子集中到一起刷题讲解,而是根据不同层次的学生提供不同的培训模块,乃至个性化服务。排名靠前的学生可以提前学习更深的课程,研究一些复杂题型。排名靠后的学生可以复习之前的的基础知识,巩固一些常识。到了公立学校,类似的服务完全依赖于教师的自觉性和额外劳动,非常不可靠。所以家长愿意花钱去购买课外培训。

当时我说,想要家长能够接受分层教育,那就需要国家拉平各个学校的教育水平,给每个教学层次都配备了高水平教师。要实现这种管理效果,显然需要付出大量成本。千问提供的学习大模型有了一个完全不同的实现路径。不只是家庭教育,就是公立教育也应该全面使用AI,增加个性化的服务。

平时我们这些孩子是每天在学校里面刷题,如果让他们也有机会使用AI工具,就算只是用来解题、答题,这个跟千问的互动过程也算是一种学习。更进一步来说,如果AI发展肯定要端掉一部分人的饭碗,那么优先减少教培行业岗位,让这些精英做的人家能够去做点更有意义的事情,对全社会都会更好。

Leave comment

On this page