在2019冠状病毒疾病封锁期间,随着会议转移到网上,许多人发现聊天的室友、垃圾车和其他响亮的声音干扰了重要的对话。
这一经历启发了华盛顿大学的三名研究人员,他们在大流行期间是室友,他们开发了更好的耳塞。为了增强说话人的声音并减少背景噪音,“ClearBuds”使用了一种新型的麦克风系统和第一个在智能手机上实时运行的机器学习系统之一。
研究人员于6月30日在ACM移动系统、应用程序和服务国际会议上介绍了该项目。
“Clearbeads在两个关键方面区别于其他无线耳塞,”联合首席作者Maruchi Kim说,他是Paul G.Allen计算机科学与工程学院的博士生。“首先,ClearBuds使用双麦克风阵列。每个耳塞中的麦克风创建两个同步音频流,提供信息,使我们能够以更高的分辨率在空间上分离来自不同方向的声音。其次,轻量级神经网络进一步增强了说话人的声音。”
虽然大多数商用耳塞的每个耳塞上都有麦克风,但一次只有一个耳塞主动向手机发送音频。有了ClearBuds,每个耳塞都会向手机发送音频流。研究人员设计了蓝牙网络协议,允许这些流在70微秒内相互同步。
该团队的神经网络算法在手机上运行,以处理音频流。首先,它抑制任何非语音声音。然后它隔离并增强同时从两个耳塞传入的任何噪音鈥攖他听到了演讲者的声音。
“因为说话人的声音离两个耳塞很近,距离也大致相等,所以可以训练神经网络,使其只关注他们的语音,并消除背景声音,包括其他声音,”艾伦学院的博士生、联合首席作者伊桑·查特吉说。“这种方法与你自己的耳朵的工作原理非常相似。它们利用左右耳发出的声音之间的时间差来确定声音来自哪个方向。”
当研究人员将Clearbeads与Apple AirPods Pro进行比较时,Clearbeads表现更好,在所有测试中实现了更高的信号失真比。
“当你考虑到我们的神经网络必须在不到20毫秒的时间内在iPhone上运行这一事实时,这是非常了不起的,与通常用于运行神经网络的大型商用图形卡相比,iPhone的计算能力只有一小部分,”联合首席作者、艾伦学院的博士生维韦克·贾亚拉姆(VivekJayaram)说。“这是我们在本文中必须解决的挑战的一部分:我们如何采用传统的神经网络并减小其大小,同时保持输出质量?”
该团队还测试了Clearbeads“在野外”,记录了八个人在嘈杂的环境中阅读古腾堡计划的内容,例如咖啡馆或繁忙的街道上。然后,研究人员让37人对这些录音的10到60秒片段进行评分。参与者将通过ClearBubes神经网络处理的剪辑评为具有最佳噪声抑制和最佳整体听力体验的剪辑。
研究人员说,透明耳塞的一个局限性是人们必须同时佩戴两个耳塞才能获得抑制噪音的体验。
但该团队表示,在这里开发的实时通信系统可以用于各种其他应用,包括智能家庭扬声器、跟踪机器人位置或搜索救援任务。
该团队目前正在努力提高神经网络算法的效率,使其能够在耳塞上运行。