机器之心报道
:佳琪、Panda
学习物理,不同的人自然有不同的经历。一些人觉得物理课简单直观,但另一些人却认为它抽象又反直觉,根本就无法理解。为此,许多教师和教学研究者探索了各种方法(像是课堂展示、动画展示等),力图让物理课变得生动有趣,便于学生理解。
随着人工智能的发展,我们已经看到各种知识学习新方法层出不穷,比如 AI 口语陪练就已成为一个颇受欢迎的应用。现在,卡尔加里大学和 Adobe 研究院的一项研究又展示了一个新可能:用 AI 将物理课本上的图表变成动画,直接展示物理机制的过程。如此一来,原本抽象的物理课程或许一下就会变得直观起来!
可以看到,只需在物理图表上绘画一个方框标记识别范围,AI 就能在分析之后将其变成可交互的动图。单摆、电路、透镜、斜坡滑行…… 不管是牛顿力学、光学还是基础电路,这个 AI 统统都能搞定。
该研究发布后收获赞誉无数,人们都从中看到了提升学生学习效率的潜力,甚至有人表示现在是当学生最好的时代。
当然,也依然有人表示怀疑。毕竟研究是一回事,转化成实际应用又是另一回事。
不管怎样,该研究不仅获得了大多数网友的赞美,也赢得了学术界的认可,其获得了正在举行的 ACM 用户界面软件和技术研讨会(UIST 2024)的最佳论文奖。
下面我们就来看看这个「增强版物理学」是怎么做到的吧。
从其标题可以看到,该研究可「基于静态的教科书图表创建交互式和嵌入式的物理模拟」。为此,他们用到了 Segment-Anything 和多模态 LLM 等先进的计算机视觉技术。
据介绍,该系统支持多种类型的模型,包括牛顿运动、光学、电路、循环动画。只需简单地勾画,用户就可以选取图表中的特定的对象进行分割,然后操作这些分割出来的对象,并调整参数值与这些模拟结果进行动态交互。此外,还可以通过一个基于网页的界面将这些交互式视觉输出无缝地叠加到教材 PDF 上,让学生无需搜索外部材料或从头开始创建模拟,即可学习、实验和使用教材。
该团队也指出,基于静态文档创建交互式解释内容的想法并不新鲜,但这项研究有三大贡献:
形成性研究
在设计系统之前,该团队在七位物理学讲师的帮助下进行了形成性研究。其目标是了解他们当前的物理教学方法,以确定当前教育实践中的差距和需求,以及通过设计启发来收集他们对潜在增强策略的见解,以便从教学角度指导这种工具的设计。
方法
该团队从当地大学社区招募了具备扎实物理教育背景的学生,其中包括 1 名本科生、5 名硕士生和 1 名博士生。这些参与者平均拥有 1.7 年作为助教或讲师的教学经验。
研究团队首先和参与者讨论了当前物理教学中对新型教学工具的需求,随后鼓励参与者提出新工具设计方案。他们以一本大一物理教科书 ——《Physics for Scientists and Engineers: A Strategic Approach, 3rd Edition》为例,要求参与者从教师的视角出发,思考如何将书中的静态概念图表转化为更具互动性和教学效果的增强形式。
目前物理教学实践的挑战
经过讨论,该团队认为目前的物理教学存在以下挑战:
启发得到的增强策略
在系统开发过程中,该团队收集了参与者关于各种主题的设计建议,包括运动学、光学、电磁学、牛顿引力、声学和热力学。根据反馈,他们确定了四种主要的增强技术类别。
增强实验:让用户可以直接操作教材图表,让他们可以改变物体的位置或电路元件的数值等,然后观察其实时的变化情况。
动画图表:将静态图像变成循环动图,展示随时间的变化情况。
双向绑定:将文本与图像连接起来,让它们变得可以操作。
参数可视化:在模拟图表中按需生成不同参数的可视化结果。
Augmented Physics 的设计框架
如何根据静态图表创建互动式的动画呢?Augmented Physics 是这么用的。
创建工作流
在 Augmented Physics 创建一个工作流程的步骤如下:
1. 导入教科书页面
Augmented Physics 支持计算机端和移动端,你可以通过手机拍照上传,也可以直接导入 PDF。
2. 选择模拟类型
Augmented Physics 可以让涉及运动、光学和电路的相关图像动起来。不属于这些分类的图像,「动画」功能也能让它动起来。
3. 提取并分割图像
用户可以在特定区域用方框和点把要动起来的区域画出来。
4. 定义分割后的图像
分割完成后,需要标明分割出来的物体在整个系统中的角色,比如下面的这张透镜成像图,就标记了焦点 F、透镜、和投影对象。
对于电路图,Augmented Physics 可以通过图像识别,自动识别电阻器和电池等元素。
5. 生成并运行模拟。 图像分割完成并分配角色之后,系统会将分割得到的图像转换成适合物理模拟的多边形,进而生成模拟。如图 7 中斜坡滑行的示例。
6. 通过参数操作与模拟实现交互。 用户可以灵活地调整模拟中的参数,例如动态对象的质量、静态对象的摩擦力和弹簧力常数。系统还可以识别文本或图像中的参数值,使用户能够操作页面上的数值。例如,在电路模拟中,用户可以修改电阻和电池的值,以动态改变模拟结果。此外,该系统还能自动将文本中的数值链接到模拟中对象的特定属性,并且用户可以这些属性。
支持的增强功能
该系统支持以下功能:
增强实验 :如下图所示,用户在选取电路图后,该系统会生成一个覆盖其上的模拟,用户可以通过调整数值来与之交互。
动画图表 :比如对于光的折射图,用户可以选择一条光路,观察光的路径。
双向绑定 :下图展示了一个运动学图表的双向绑定示例。用户选择绑定一个数值,然后通过拖动可以调整这个值,然后系统会基于新的值运行模拟。
参数可视化 :图中展示了单摆的参数可视化。用户选择单摆和可用参数后,该系统可以可视化其随时间的变化情况。
实现
该系统主要包含两个组件:使用 Python 的后端计算机视觉管道模块和使用 React.js 开发的前端 Web 界面。
其中,计算机视觉模块集成了广泛使用的图像分割模型 Segment-Anything,以及通过 OpenCV 定制开发的线和轮廓检测算法。
前端和后端之间的通信通过 Firebase 实时数据库实现,并允许根据提供的输入坐标处理图像。得到的结果(包括提取的图像、线条或点)随后通过 Firebase 传回。此外,该系统还会计算提取的图像的边界框和 X 和 Y 坐标,并将这些数据传输到前端。
对于文本识别和数值提取,他们使用了谷歌的 Cloud Vision API。然后,将页面文本和提取的对象数据以 JSON 格式发送到 LLM(GPT-4),该 LLM 的作用是推荐模拟类型并根据文本自动设置模拟参数。
在原型设计和技术评估中,前端是 2022 版 14 英寸的 MacBook Air 上运行的 Chrome 浏览器,后端是 Google Colab(CPU:Intel Xeon 4 核,GPU:Nvidia T4,RAM:50GB)。
技术评估
表 1 总结了技术评估结果。模拟不同元素的成功率如下:运动学为 64%、光学为 44%、电路为 40%(经过微小后可提升至 62%)、动画为 66%。
具体细节请参阅原论文。
用户研究
初步用户研究
在初步研究中,该团队评估了系统可用性得分 (SUS)、总体参与度和系统的有用性。新设计的系统获得了 92.73 的总体 SUS 得分,标准差(SD)为 9.84。
参与者最喜欢功能的是参数可视化(平均值 (M)=6.8,SD=0.4)和双向绑定(M=6.7/7,SD=0.67),其次是增强实验(M=6.0/7,SD=1.78)和动画图表(M=6.2,SD=1.07)(图 13)。
总体而言,参与者认为所有功能都很有用。
专家意见
该团队也询问了专家的看法。他们普遍表示,该系统可以帮助他们为学生创建个性化的模拟。他们也给出了自己的反馈,总结如下:
真心希望该系统能早点投入实际应用!