位于莫斯科的三星AI中心最近发表了一篇研究报告,指称已建立一个AI系统,只利用少许甚至是单一照片就能让这些人具备其它的表情或说话,可创造玛丽莲梦露、爱因斯坦,甚至是蒙娜莉萨正在说话的影片。近来的机器学习研究已可藉由训练卷积神经网络来获得非常逼真的头部图像,为了建立可说话的个人化头部模型,必须利用该名人士的大量影像集进行训练,但在许多实际的场景中,人们只能取得一些,甚至是只有一张图像。
于是这群研究人员打造了一个AI系统,可替这些只有少数图像的人们建立可说话的头部模型。他们的作法是先在大量与其他人相关的影片上执行长期的元学习(meta-learning),再藉由强大的生成器与鉴别器来替只有少数图像的人建立说话头部模型。简单地说,他们追踪并分析了大量影片中的人脸特征,再将这些特征套用到相近的新人脸上,让这些缺乏大量数据的人像也能开口说话或具备其它表情。
该报告作者之一的Egor Zakharov说明,元学习阶段的成果让生成器与鉴别器具备数千万种参数,使得只有数张图像的新人也能据此进行微调;亦可自动挖掘数据集中与画像或人像照片特征相符的人们,再将相关的模型套用到原本静止的画像或照片中的人物上。于是,现在大家可以看到照片中的玛丽莲梦露或爱因斯坦开口说话了,甚至是在画作中的蒙娜莉萨也有不同的表情了,而且研究人员在蒙娜莉萨身上套用了来自3个不同人的模型,创造出3位个性迥异的蒙娜莉萨。Zakharov表示,不管是在特征的调适上或让系统可更紧密地整合特征追踪,都有待进一步的研究。内文来源至: http://pharmacycentral.net/