你是清纯美女还是妖艳贱货?人工智能将一眼识破
一篇论文引发的争议
近日,上海交大教授武筱林在国外论文数据库中上传了一篇论文,讲述其带领团队用人工智能算法鉴别“清纯”美女和“妖艳”美女,并且准确率达到了80%以上。这本是一篇正常的学术论文,但国内外各方对此的反应不淡定了,就像武筱林团队对美女做出“褒”和“贬”的标签一样,舆论各方对此也是各抒己见。
那么,这场争议到底是蓄意炒作还是学术争论?究竟是什么原因让这个学术问题上升到舆论问题?武筱林团队做的这项研究是否权威,是否能有说服力?研究过程中用到的技术算法是什么?机器判断“清纯”与否的标准是什么,会不会加入研究团队的主观意识呢?技术最终落地到产品,如果这项技术能够应用到实际中,其应用场景又有哪些呢?下面智能菌带你一探究竟。
情人眼里出西施?机器视觉还能帮你出"东施"
对于选美,自古就有“情人眼里出西施”的谚语,而在12月23日,上海交大教授武筱林将研究论文Automated Inference on Sociopsychological Impressions of Attractive Female Faces(《自动推断有吸引力的女性面孔造成的社会心理学印象》[1]附论文下载)上传到国外论文数据库中,文章详细介绍了其带领的研究团队,通过用机器视觉识别美女图片,是属于“清纯”还是“妖艳”类型,并声称其准确率达到了80.23%。通过机器对女性外貌进行鉴别,并且打上的标签还是具有明显褒贬色彩的字眼,大众舆论对其研究的巨大争议由此而来。
武筱林介绍称,目前人脸识别技术已经能够成功鉴别人类的性别、种族、年龄等生物性特征,那么对于识别人类的情感、性格等社会性特征,人脸识别技术能否进行推测鉴别呢?对于这篇论文引发的争议,武筱林或许有所准备,因为就在前不久他还发表了一份论文,讲述的是通过机器识别成年男子“罪犯”与“非罪犯”的类型,识别准确率高达86%。“罪犯”与“非罪犯”的标签相较于褒贬而言,更多的是对一个人社会属性的审判,此处智能菌更关心的是那高达14%的出错率。消息一经推出便引起了巨大的争议,而其中质疑和否定的居多。
既然有了前车之鉴,武筱林团队为何还要进行类似触及社会伦理的敏感研究?况且第二次的研究并非机器定罪中是与否的鉴别,而是针对个人主观因素占主要依据的审美。对此,武筱林在第二篇论文中表达了对上一篇论文引发争论的回应:“我们不能因为社会禁忌和政治观念,就在不加以检验的情况下否定这种可能性”。这样的解释能否说服质疑者?还要看其研究所采用的方法和技术手段。
好不好看人说了不算?机器审美标准从何而来
据论文介绍,武筱林的研究团队先是从搜索引擎中按照关键词获取照片,再人工进行排查,最后获取3954张美女照片,其中标记为清纯、柔美、甜美、单纯等褒义标签的照片为2000张,而标记为娇艳、俗气、风骚、轻浮等贬义标签的照片为1954张,分别以S1和S0代替分组。对于如何确定照片属于褒义标签还是贬义标签,除了按照搜索引擎的获取外,研究人员让22名男性研究生受访者对照片进行人工判断。
这是获取的样本,同时也是训练机器、做测试用的数据。研究团队采用深度卷积神经网络(CNN)对样本数据进行研究,其中80%的数据用于训练机器,即让机器明白哪些是褒义标签的照片,哪些是贬义标签的照片,10%的数据用于验证,剩余10%的数据用于测试。最后实验的结果是经过数据训练的机器对于两类标签的鉴别准确率达到了80.23%。
此外,为了消除照片中女性化妆对于机器的误导,研究团队讲所有图片调成灰阶图,机器鉴别的正确率依然达到了74.59%。由此研究团队认为可能是化妆照片面部的对比度和饱和度对机器鉴别产生影响,由此猜测照片的对比度和饱和度是机器做出判断的重要依据之一。
卷积神经网络(CNN),是图像处理中的离散卷积运算和人工神经网络相结合。离算卷积运算可以提取图像(就像该研究中的照片样本)的特征,主要应用于图像的识别。深度卷积神经网络一般包含输入层、输出层、以及中间的若干卷积层。深度的层次就是卷基层的层次,卷积层越多,对图像特征的提取就越抽象,越容易对图像进行识别。论文中提到这项研究采用AlexNet架构,拥有5层卷基层和3层全连接层(如下图)。作为比较,据前微软亚洲研究院常务副院长芮勇介绍,其团队在图像识别中建立的深度学习神经网络模型已经达到了152层([2]附智能菌此前的报道),而此前一篇论文显示Facebook首次将29层卷积神经网络用于自然语言处理([3]附论文下载)。
从研究团队对照片处理前后鉴别结果来看,机器不会出错。而引发争议的就在于样本的选择和标签的设置。首先,样本选择是通过关键词在搜索引擎上获得的,那么搜索引擎对于照片呈现的依据和标准,我们无从得知。其次,人工排查的依据和标准,也没有进行量化。22名男性研究生对于照片标签的认可,也没有给出明确的判断依据,那么样本数据在设置的时候会不会加入主观偏见?最后就是样本和人工排查人员的数量,论文中指出总共样本数为3954张照片,用于训练机器的数据占80%,而研究人员加上22名受访人员也是小数量,这对于需要大量数据学习的机器来说,能否支撑研究所需要的数据量?
发出去的论文还能撤回?技术专家各说各有理
针对武筱林此前的人工智能算法鉴别罪犯和此次的鉴别美女,智能菌选出了具有代表性的回应:
一位上海交大的海外校友则表示,武筱林应尽快撤稿,这种行为给上海交大造成了恶劣的影响,这起事件以后会对该校学生申请国外高校产生影响。
国外新闻网站Hacker News的一位用户称,看到摘要的时候还以为在开玩笑,读下去却发现是用在数据和实验证明这一事件。他认为这种研究需要犯罪学、心理学和机器学习方面的专家,而不是随便几个懂点深度学习框架的人就能完成的。
国际隐私保护组织的Richard Tynan博士认为,作为一个个体,你不可能知道机器是怎么给你下定论的。在小数据集上,算法、人工智能和机器学习可能会建立起专断荒唐的相关性。这不是机器的错,把复杂系统运用在不合适的地方是很危险的。
加拿大麦克马斯特大学的电子与计算机工程系主任,蒂姆?戴维森教授则指出,这项研究应当促使人们反思一个问题:长相偏离均值的人是否更容易遭受所谓“主流”人士的歧视和排斥,而其中一些人会因此走上违法道路?
再来看看网友脑洞大开的回应:
易友<horsenriver>表示:相亲的时候美女太多,挑花眼了,请教授的机器帮忙看看。
易友<就是不服认死理>表示:敢不敢整一组韩国女明星试试?看看谁整容了谁是纯天然的。
看脸读心如果真的靠谱 机器视觉未来有哪些应用场景?
目前在做计算机视觉识别研究的绝不止学术界,国内外各大科技公司争相布局这一领域,在此智能菌想如果做出这项研究的是某家科技公司而并非大学教授,会不会引发此类争议?毕竟近段时间各家都想在AI领域搞个大新闻,从AlphaGo化身Master横扫围棋界,到百度大脑战胜人类顶尖选手,从应用层面角度来看,与武筱林的研究相同,都没能提出明确的应用方向。
智能菌此前报道,研发AlphaGo的DeepMind接入英国医疗数据,帮助医生提高诊断疾病的效率,并且预防各种疾病的传染传播等。对于人脸识别,北京西站已经开启了刷脸进站的服务,这让车站能够更高效的通过进站人流,对即将到来的春运人流高峰也有帮助作用。
技术本身并没有对或错,人们对于技术的应用才是至关重要。如果耗费人力物力研究出来的AI程序只是下下围棋、看看面相,博得一段时间舆论关注,对技术本身的发展并没有太多的推动作用。相反,如果关注的是技术本身及应用场景,能够让它走出高大上的实验室走出来,进入寻常百姓家,这才是人们关心和关注的。
[1]武筱林论文下载地址:https://arxiv.org/pdf/1612.04158.pdf
[2]微软芮勇:计算机视觉已通过图灵测试 但路还很长
[3]Facebook论文下载地址:https://arxiv.org/pdf/1606.01781.pdf
作者介绍:Sherwood,媒体智能工作室编辑,关注人工智能领域报道与分析。
下一篇: Liunx网络管理