人声能曝露许多重要信息,比如,东莞人跟西北人讲的广州话总有一天都并非两个味。
而斯坦福大学(MIT)最近几项科学研究发现,经过体能训练的 AI 不仅能从人声里辨别出你的异性恋、年纪和族群,即使能猜到你约莫长怎样。这些「绝密」都想放了。
▲ 图自《华尔街日报》
科学研究相关人员用两个由数百万 YouTube XVID组成的统计数据集,对两个名为 Speech2Face 的数学模型数学模型展开自我体能训练,从最终结论来看,6 秒音频对人脸识别展开还原成的效用还算不错。
▲ 一共 6 组结论实例,左边是视频里的人像,右边是 AI 根据人声还原成的效用
Speech2Face 数学模型的运作约莫分为两部分,两个是音频编解码器,负责对输出的音频展开预测,推断出相关的脸部特点;另两个则是脸部记忆卡,对输出的脸部特点展开整合产生图像。
MIT 科学研究团队表示,她们的目的并非为了准确地还原成骂人者的模样,Speech2Face 数学模型主要是为了科学研究音频跟相貌之间的相关性。
从体能训练结论看,Speech2Face 能良好地辨识出异性恋,对非洲人和亚洲人也能良好地分辨出来,另外对 30-40 岁和 70 岁的年纪段人声胜率稍微高许多。
▲ Speech2Face 似乎倾向将 30 岁以下的骂人者年纪猜大,将 40-70 岁的骂人者年纪猜小
除了较为基础的异性恋、年纪和族群,Speech2Face 即使能猜错许多脸部特点,比如鼻子的结构、嘴唇的厚度和形状、施力情况,以及约莫的脸部骨架。基本上输出的音频时间越长,AI 的精确度会越高。
当然 AI 的「听觉」也会手忙脚乱。科学研究相关人员发现,它会将未经历休止的小男孩辨识为女性,对许多骂人者的口音判断严重错误,也会弄混年纪……这一点完全能理解,毕竟人声还是会明明的,彻夜伴你入睡的萌妹奶音主持人,实际上说不定就是个抠脚彪悍。
▲ Speech2Face 的许多严重错误实例
科学研究相关人员表示,Speech2Face 的局限性,部分原因来自统计数据季中的骂人者本身族群多样性不够多样,这也导致了它辨认蕨盲人声的能力较为弱。
至于她们对这个 AI 数学模型的应用领域,则有两个很可爱的想象:只需要说几句话,未来 Animoji 和 Gboard 等功能或许就能根据人声生成你的米老鼠肖像。
▲ 图自 Independent
不管你信或不信,藏在我们人声的绝密都正被开发科学研究,投入各式各样的场景应用领域。
卡内基梅隆大学计算机副教授 Rita Singh 也主导过几项类似的科学研究,能从人声猜测骂人者的年纪、身高、体重、环境噪音和骂人时的空间类型等重要信息。她认为人声里藏着多样而独特的重要信息,「就像你的 DNA 或人脸」。
这项技术后来转变成跟 Speech2Face 相似的音频预测系统,还原成人脸识别的精确度达到 60%-70%,目前正被美国海岸海军陆战队用于缩小调查范围找到变态报警者。据称,她们每年会接到约 150 个变态电话,这些行为被视作浪费军警,即使会遭到刑事起诉。
▲ 听起来就像刑警剧中的犯罪侧写师
目前,汇丰、渣打银行、高盛等银行都在用「记录器」作为身份辨识的一种方式(voice ID),能检测你的账户是否被盗。
大都会人寿保险公司的客服中心,会用一套 AI 系统帮忙辨识客户的情绪和感受,平均准确率达到 82%;许多保险公司即使会借此判断来电者有没有骗保的意图——如果骂人时出现微小停顿,很可能就是在提供虚假重要信息。
除此之外,经过体能训练的 AI 还被许多公司用于招聘,从应聘者的骂人模式预测出性格特点,判断是否适合在招岗位。
而丰田汽车曾经在 2017 年 CES 大会展出 Concept-i 概念车型,车内配备红外摄像头、传感器、车载音频辨识和对话系统,它们将协作判断司机是并非处于疲劳驾驶状态并作出提醒。
跟 MIT 的米老鼠肖像相比,Singh 教授的想法似乎要更长远且宏大许多。她希望,有朝一日音频辨识技术能用于远程确诊帕金森等疾病。
▲ 图自 NewScientist
而目前已经有科学研究发现,冠状动脉疾病患者在人声上会留有不同的频率标志。未来,「听声看病」说不定也会跟「听声识脸」一样成真。
题图来自 itcrumbs.ru