AI能听懂音乐笑话吗?
最近我一直在默默思考AI正在给宏观世界带来什么潜在影响的问题。谈论这些问题很难,我常常倾向于避开一些当下甚嚣尘上的争论,仅仅因为不喜话题的风格或气质,比如加密货币或Web3。也许是一种Neo-luddite,或是对理工科刻板印象中思维方式和意识形态的下意识叛逆。但我碰巧是学习机器学习领域的学生,深入接触过AI音乐这个方向。所以我意识到,我越来越难以忽略这个问题在我体内造成的割裂感、和潜伏在其中的巨大困惑。
不仅仅我自身割裂,在几乎没有人不提到AI的2024年,鼓吹者、怀疑者、加速主义者、末日论者(doomer),各种观点立场缠绕交错。我倾向于觉得,世界还没有做好准备面对这次技术变革。对我来说,AI牵涉到复杂的世界线,空气中无所不在、盘根错节的隐形蛛网。关于技术哲学、媒介理论、政治气候、互联网乌托邦/反乌托邦、艺术创作和体验、消费主义文化、晚期资本主义、技术封建主义、甚至进化、人性的边界之类的问题一直都存在,也许现在AI把它们串联起来,看起来会更明显吧。我一直想做的事(为了长大),只是“making sense of the world”,但即使是这样也实在太困难了。我并不想得出一些草率的结论,所以想要先花点时间静下心慢慢研究这些问题。
不过即使是这样,一点点地开始谈论也是有价值的。今天看到Adam Neely谈AI音乐,果不其然听到了一些我期待已久的观点。视频很精彩,立论的核心在于音乐的图灵测试不应该在于输出(音频/乐谱),而在于互动(和人类一起即兴演奏,jam)。也就是说音乐核心在于其作为动词的审美、创作、沟通的过程,而不仅仅在于作为名词的作品(或产品),这当然也适用于任何其他艺术。沟通不仅在舞台上不同乐手之间、舞台上下乐手和观众之间,也在时间轴上的创作者和传统之间——她们灵活地运用传统、组装传统、打破传统和塑造新的传统,这些沟通构成了一种艺术文化。
喜欢音乐的人应该会认同,这些过程常常是身体性的:听到funky味十足的音乐时,很难控制身体不跟着摇摆。(神经科学家说大脑中的听觉系统和运动系统的活动时有重叠,在听音乐时很明显。)很好玩的一点是,AI能听懂音乐笑话吗?「你的鼓听起来像是1/1拍。」「那这首歌就是400-bar Blues。」音乐的感知有超乎语言的东西,有些是难以离开身体存在的,很多部份人类自己也还没搞清楚。不仅仅关于身体,音乐是一种动作。是什么让你想把某张唱片从架子上抽出来放在唱机上播放?是什么让你在现场演出的时候忍不住想要跟着哼唱或者手舞足蹈?是什么让一位母亲在哄宝宝睡觉的时候,唱起多年以前从她的母亲那里听来的摇篮曲?
如果在这里想要谈论「具身智能」和强化学习,I think you missed the point.虽然说能否训练一个酷似人类能跟着音乐手舞足蹈的机器人,不失为一个好的AI笑话。(大家或许低估了AI作为解构工具的趣味,我一直想要发现其中的可能性,像是Gwern做的This Waifu Does Not Exist。)
在AI时代试图捍卫人性中艺术、文化灵光的人们总有种五味杂陈的情绪,我一直很有共鸣。在Adam的视频里,从他的表情和语调当中,我更深切体会到这是一种什么情绪:面对某个说不清的庞然大物时自知「不自量力」的幻灭和恼怒。而且,那庞然大物并不是AI,而是别的东西。「音乐AI永远不会通过图灵测试」,这句话在今天听来,不得已会带有一种不得志的人冷嘲热讽的感觉,而且我相信身为贝斯手的Adam自知如此,但他仍这样说了。所有Luddite式的观点不可避免带有一种学不会新技术的老狗、传统/文化/人性的看门人gatekeeper般的语调。所以我们现在到底在gatekeep些什么?说艺术文化堕落到底说的是什么?连这些问题都搞不清楚的悔恨,也是五味杂陈的一部份。你根本不知道在反抗什么。
不过视频里Adam其实有明确所指,他想指出的是在资本主义高效流水线、互联网消费文化背景下「如果你有一把锤子,在你眼中所有东西都会变成钉子」的工程/产品思维。「音乐只是那些创业者的清单上另一个需要勾上的框框。」确实如此,这是一针见血的见解。但即使如此,事情似乎还远远没有被弄清楚。我们仍然每天不得不生活在迷雾般的庞然大物体内,视若无睹。这就是为什么「空气」这个隐喻很合适。而且我们真的有把握说「AI永远无法达到人的程度」吗?我们是应该在技术不断逼近人性界限时捍卫人之本真,还是让技术成为我们崭新的四肢和大脑与之一同迈向人类下一段进化历程?这些问题我目前还不得而知。影片的最后,Adam伴着AI生成的广告歌曲弹了一段贝斯即兴,那是他的回应,我几乎可以想象到那是一种什么心情。