乐谱数字化的新途径 ―― 计算机光学乐谱识别技术
西北工业大学 刘晓翔 张树生 西安音乐学院 朱玉璋
稿源:中音网
摘 要 计算机光学乐谱识别(Optical Music Recognition,OMR)是计算机技术在音乐领域的发展和应用,它利用图像处理、模式识别、文档图像分析等相关技术,把乐谱图像自动转化成通用的数字音乐格式。OMR技术为纸质乐谱数字化提供了一个智能、高效的新途径,在计算机音乐、计算机辅助音乐教学、数字音乐图书馆等众多领域有着广泛的应用前景。
关键词: 光学乐谱识别,数字化,数字音乐图书馆
1 问题的提出
信息技术改变着社会生产和人类生活的各个方面,人类社会正在步入一个数字化时代。现代计算机科学与音乐艺术的结合产生了计算机音乐,它的出现不仅体现了计算机技术的一次革命,而且给人类的音乐活动带来了生产方式的根本变革,人们对音乐的创作、演奏、传播从传统的手工作业方式一跃而为高科技方式。
乐谱的发明是人类音乐史上的里程碑,它的出现使人们可以在一个相对标准的平台上进行音乐的交流和传承。古往今来的优秀音乐作品大都以纸质乐谱的形式保留下来,直至今天,纸质乐谱仍是表达和描述音乐作品的主要载体。
基于以上的时代背景与事实,那些长期涉足于计算机音乐的人士便迫切地提出了这样一个问题:让“纸质乐谱进入计算机,计算机读懂乐谱”,能够实现吗?
在计算机音乐发展的近几十年中,各种音序编辑软件层出不穷,如Encore、Cakewalk等,这类软件的出现告诉人们,“乐谱进入计算机”已经不成为问题。然而,利用音序编辑软件进行乐谱数字化是一种纯手工人的方式,即手工录入――校对――修改的方法,录入人员必须具有一定的音乐专业知识,而且输入工作量大、效率低。因此,在纸质乐谱数字化的进程中,不可避免地产生了低速的音乐信息输入与高速信息处理之间的矛盾。于是,一些计算机学者和专家们开始寻求一条纸质乐谱数字化的新途径,力图突破纯手工的乐谱数字化瓶颈,自动完成乐谱向数字音乐的智能转化,即实现真正意义的“计算机读懂乐谱”。经过十几年的研究和探索,计算机光学乐谱识别(Optical Music Recognition,以下简称OMR)技术应运而生。
2 光学乐谱识别技术的应用
OMR技术是将纸质乐谱由扫描仪输入到计算机,经过处理,把乐谱图像自动转化为计算机能“读懂”的数字音乐--标准音乐格式文件(如midi格式)。这数字音乐文件与采集声音数据的音频文件(如WAV格式)不同,它的原理是“记谱”,记录的正是乐谱所表达的音乐内容。在计算机软、硬件强大功能的配合下,人们可以轻松地对其进行编辑、加工、打印、传播或实时演奏。OMR技术为纸质乐谱数字化提供了一个智能、高效的新途径,有着极为广泛的应用前景,以下我们重点从计算机辅助音乐教学和数字音乐图书馆建设两方面介绍OMR技术在其中的应用:
1)计算机辅助音乐教学
在由应试教育向素质教育转轨并不断发展的今天,多媒体电脑音乐走进课堂已成为时代发展和音乐教育的需要。一台集成OMR系统、midi音乐系统的多媒体电脑即可代替传统的“课本+黑板+钢琴”音乐教学模式。通常,音乐教师在黑板上写出的谱例在学生心中难以形成音响的听觉联想,而钢琴上弹出的声音转瞬即逝。借助OMR系统,教师则可在课堂上即时地将课本上的谱例生成midi文件,利用其非常直观的乐谱显示功能以及实时性、动态性的特点,将谱例与实践音响同步展现在学生面前,并可迅速重新演奏或演奏乐谱中的任一片断,使学生的听觉与视觉形象融为一体,从而激发学生的学习兴趣。
2)数字音乐图书馆
随着数字图书馆的蓬勃发展,数字音乐图书馆也悄然兴起。如同音乐文献资源建设是传统音乐图书馆的基础性业务工作一样,获取大量的数字化音乐内容是建设数字化音乐图书馆的核心内容。在建设过程中,必然会面临的一个突出问题就是已有音乐资源的数字化问题。传统音乐资源最主要的对象是印刷型纸介质乐谱,快速准确地将传统图书馆保存的纸质乐谱资源数字化便成为建设数字音乐图书馆的当务之急。
纸质乐谱的数字化有两种形式:一种是采用光学扫描压缩存贮乐谱图像,存贮格式有TIFF、JPEG、GIF等多种。另一种是根据乐谱描述的音乐内容将其转化成数字化音乐文件,如midi文件。同样作为数据资源,数字化音乐文件具有存贮空间小、表现方式灵活、检索方便快速等许多图像文件无法比拟的优势,是数字音乐图书馆在Internet环境下理想的数据载体。
音乐图书馆所藏的乐谱数以万计,如此浩大的电子化工程,若单纯靠传统的人工录入,将是漫长和繁重的工作,既费时又昂贵。所以,建立一个快速准确、重码率低的乐谱输入方案,是进行大批量乐谱数字化的关键。OMR技术正为数字音乐图书馆解决乐谱数字化难题提供一套完整便捷的解决方案。国内外,光学字符识别(Optical Character Recognition,简称OMR)技术在数字图书馆文献录入的应用已经获得了巨大的成功。同样,在数字音乐图书馆领域,OMR拥有着巨大的市场潜力和价值。
国外已经意识到OMR对数字音乐图书馆建设潜在的巨大作用。1994年9月,美国国家科学基金会(NSF)正式公布了一项为期四年投入2440万美元的“数字图书馆首创计划”(Digital Library Initiative)。1998年,由国家科学基金会(NSF)、国家人文学资助会(NEH)等机构联合资助数字图书馆倡议第二阶段。在中标的47个项目中有3项是关于数字音乐图书馆的研究和开发[4],其中以OMR为技术支持的研究项目有美国马萨诸塞大学的连机音乐识别和查询系统(OMRAS),琼斯・霍普金斯大学的Lester S. Levy数字化活页乐谱藏品录入与查询系统。此外,在新西兰,瓦卡托大学为新西兰数字图书馆开发了乐谱联机识别系统和基于音乐内容检索的查询系统(MELody inDEX)。值得关注的是,以上系统的乐谱录入方案均采用的是OMR技术。
由于国内数字音乐图书馆的建设才刚刚起步,目前尚未见到OMR应用于数字音乐图书馆的文献和报道。但由以上分析可以看到,早日研究和开发出国内自己的OMR系统,不仅对于我国未来数字音乐图书馆的建设和推广具有及其重要的意义,而且势在必行。
3 国内外光学乐谱识别技术研究现状
国外有关OMR的研究起始于60年代后期,当时由于技术条件和硬件设备的限制,所研究的内容也是非常有限的。到了70年代,随着光学扫描仪的出现和机器性能的提升,OMR才真正已经引起众多学者的广泛注意。进入80年代后,随着计算机图形图像技术的不断发展与成熟,研究内容越来越深入,其研究成果也逐步进入实用阶段。目前已经出台的商品化OMR软件系统有:OMeR、midiScan、SmartScore、SharpEye Music Reader、PhotoScore等。对于常见的印刷体五线谱乐谱,它们的识别率均在90%以上,同时提供强大的后期编辑、打印功能,最终识别结果可导出为midi、Niff、Music XML等数字音乐文件。
在我国,一方面由于计算机音乐发展起步晚,计算机音乐只是少数音乐工作者的“专利”,社会缺乏计算机识别乐谱的需要;另一方面,由于国内高校的学科设置综合化程度、学科交叉的跨度与国外有着相当大的差距,长期以来,从事计算机音乐研究的专业人才严重缺乏。因此,OMR技术在国内的系统研究和实践工作几乎为空白。目前,西北工业大学与西安音乐学院合作正在开展印刷体光学乐谱识别技术的研究。随着我国大规模传统资源数字化进程的推进,数字化音乐教育与图书馆界国际交流与合作的增加与扩大,OMR技术必将逐步受到国内学者与研究机构的重视。相信在不远的将来,OMR技术将在我国数字化音乐教育与数字音乐图书馆的建设中发挥巨大的作用,缩小我国计算机音乐在应用高新技术方面与国外的差距。
4 光学乐谱识别技术原理简介
OMR是一项综合应用数字图像处理、模式识别、人工智能、音乐理论等多门相关学科的交叉技术,其目的就是要让计算机“读懂” 乐谱。一个完整OMR系统主要由五大模块组成:乐谱扫描输入与预处理、谱线定位与删除、音符基元识别、音符基元重组及语义理解,其处理流程如图1所示。
图1. OMR系统处理流程示意图
(1) 乐谱扫描输入与预处理
将纸质乐谱经扫描仪输入计算机生成乐谱图像,并对扫描图像中的噪声、局部变形等缺陷进行消除和弥补。
(2) 谱线定位与删除
针对乐谱图像绝大多数符号和标记都叠加在谱线上这一特征,在提取和识别音符对象前首先对谱线进行定位和删除,这样可将各种音乐符号从谱线中分离出来,以排除谱线在识别音符过程中造成的巨大干扰。
(3) 音符基元识别
谱线删除后的乐谱图像可视作一幅仅由音符基元组成的图集。所谓音符基元就是由各种音乐符号分解得到的最小符号图形,它们通常是符头、符干、符尾、升降号、谱号、休止符等,这些图形的有效组合即构成了具有音乐语义的音符对象。识别音符基元的目的就是经过计算机的模式识别处理,使计算机能“认识和区分”这些最小音乐符号。
(4) 音符基元重组
利用乐谱知识规则将音符基元重新组合成特征音符对象。其功能是通过基于知识的意愿重组技术,将人所具备的音乐知识“传授”给计算机,使计算机能模拟“识谱”这样一个人为学习过程。
(5) 音符语义理解
对音符对象所代表的音乐语义进行解释,生成语义编码,最后根据语义编码将识别结果输出成音乐格式文件。
从总体考虑,OMR系统应是一个基于乐谱的专家系统,该系统应具有音乐工作者阅读和书写乐谱的智能,不仅需要有音符特征判断的规则和算法,而且需要音乐理论知识和经验。最近这方面的努力向着更为成熟、复杂、综合的方向发展,人工智能、神经网络与专家系统技术在OMR系统中的深入应用将是未来OMR技术的发展趋势。
参考文献:
[1] D. Blistein and H. Baird. A Critical Survey of Music Image Analysis. In: Springer-Verlag, editor, Structured Document Image Analysis, pages 405-434, Eds. H. S. Baird, H. Bunke, K. Yamamoto,1992.
[2] R.J. McNab, L.A. Smith, I.H. Witten, C.L. Henderson, and S.J. Cunningham. Towards the digital music library: tune retrieval from acoustic input. In Proc Digital Libraries, pages 11-18, 1996
[3] "大规模文献数字化的实践与数字图书馆建设"
[4] "数字图书馆在美国的研究与发展现状"