当今的电影制作,不仅仅是一门艺术,更是商业和科学,电影制作人需要去了解观众的喜好和反应,才能知道观众对电影的真实评价,比如「观众是否喜欢这部电影?」、「哪个桥段最吸引他们?是第42分钟吗?」等等。为此,加州理工学院和迪士尼研究院合作开发了一套神经网络系统,能够追踪观众的面部表情,来预测和了解观众对电影的反应。
该项目于正在举办的国际计算机视觉与模式识别顶级会议CVPR上亮相,据悉,这种新的方式能够相对简单、可靠、实时地对影院中的观众的面部表情进行识别和跟踪。
这套系统使用了一种名为分解式变量自动编码技术(factorized variational autoencoder),据研发团队介绍,该技术相比目前的方法,能够更好地捕捉复杂的事物,比如动态的面部表情。
该研发团队通过150部迪士尼电影来收集大量的观众面部数据(在播放迪士尼电影的影院通过红外高保真摄像机捕捉每个人面部和动作),并把这些生成的数据(1600万左右个数据点)馈送到神经网络进行训练。
当训练结束,这个系统就能够了解观众在观看影片过程中产生的所有情绪。在实际应用时,神经系统不仅仅能够处理过去的信息,还能够对观众进行预测,比如团队在研究中发现观众的预热时间大概需要十分钟,那么通过十分钟的观察,便可预测该观众在余下时间内的面部表情(目前还智能预测笑容类表情,惊恐、哭泣等面部表情暂时还不能预测)。
这一技术对于电影制作来说确实是一个非常不错的应用,例如能让影院知道哪部电影深受观众喜爱,从而可以调整排片策略,这种分析看上去应该比充满水军的影评要靠谱得多。
当然,这只是这项技术应用实际场景的一种,该技术还可以用到其他领域,比如大面积的人群监控等等。
参与开发这项技术的加州理工学院的YisongYue表示,了解人类行为对于开发更高级的人工智能系统非常重要,有了更高级的行为能力、社交能力,人工智能系统就能应用到实际中,比如用人工智能系统去护理老人,机器就能够根据肢体语言来理解老人们想要做什么,毕竟,人类并不总是明确地表示他们的不开心和遇到的问题。