当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统能够服务于任何说话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进一步,都会使问题变得越来越困难。当到达三条轴的远端时,我们期望电脑能够识别任何人说的任何字,以及“印(任)何程度”的含混字。人们通常都认为,我们必须在两条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不对。
讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在的分析复杂词汇的能力基本为零。
由于以上种种原因,小型化的趋势必然会推动语音制造和语音识别技术的提高,并促使语音识别成为附在小型物体上的电脑的占支配地位的人机界面。实际的语音识别系统不需要一定装在袖扣和表链中。小型装备可以通过通信而提供帮助。关键在于,小型化了以后,就必须靠声音驱动。打电话,传心曲很多年以前,霍尔马克卡片公司(Hallmarkcards)开发部的主任告诉我,他们公司主要的竞争对手是AT&T。“打电话,传心曲”的广告词说的是,透过声音,传达感情。
我们也忽略了说话在文字以外的价值。举例来说,今天的电脑需要人全神贯注。你通常都必须正襟危坐,同时把注意力放在互动的过程和互动的内容上。在走来走去时使用电脑,或在有多组对话时让它参与其中的一组,简直是不可能的。语音识别可以改变这一切。
重述先前存储的说话内容,也就回到了听起来最“自然”的口、耳沟通方式,尤其是当我们存储的是一个完整的讯息时,就更显得如此。由于这个原因,大多数的电话留言都是以这种方式录制的。当你试图把录好的片段声音或个别单字拼凑起来的时候,结果就比较不如人意了,因为整体的韵律不见了。
声音的渠道不仅传递了信号,同时也传递了所有伴之而来的理解、深思、同情或宽容。
我们会说,某人“听上去”很诚实,这个论点“听起来”不怎么可靠,或某件事“听起来”不像那么回事。声音中潜藏了能唤起感觉的信息。
几年以后,另外一个学生想到一个绝妙的主意:找出用户说话时会在什么地方停顿,并且设走电脑程序,让电脑在适当的时候发出“啊哈”的声音;这样,当一个人和机器说话的时候,机器每隔一会几就会发出“啊哈——”、“啊——哈”或“啊哈”。这些声音产生了极大的安抚效果(就好像机器在鼓励使用者继续对话),使用者变得比较放松,而系统的表现也突飞猛进。
这个观念体现了两点重要的意义:第一,并非所有的发音都需要有字面上的意义,在沟通中才有价值;第二,有些声音纯粹只是对话中的礼仪。当你接电话的时候,没有以适当的间隔对来话人说“嗯”,来话人会变得很紧张,而且最终会探问:“喂,你在听吗?”“啊哈”或“嗯”的意思不是“是”、“否”或“也许”它基本上是在传达一个比特的信息:“我在这里”。并行的表达想象一下这样的情景:你和一群人围坐在一张桌子旁,同桌的人除了你以外都说法语。你只在中学粗粗修过一年蹩脚的法语、突然有个人转过头来对你说:“还要来点几酒吗?”你完全听懂了。接着,这个人把话锋一转,谈起法国的政治来了。除非你能说流利的法语,否则就跟听外星人讲话一样(而且即便你法文流利,也不一定能懂)。
身在异地时,我们会用尽一切办法,来传达我们的意图,并且解读所有相关信号,力求索解出哪怕一丁点意思。电脑正是身处这样的异地——人类的土地上。让电脑开口要电脑说话,有两种方式:重放先前录下的声音,或合成字母、音节或(最可能的是)音素的声音。两种方式各有利弊。让电脑说话和音乐的制作一样,你可以把声音存储下来(就像CD一样),然后重播,也可以采用合成的方式,根据曲调,重制音乐(就像音乐家一样)。
过去,人们不大愿意用预录的谈话来作人机界面,因为这样会消耗电脑大多的存储容量。今天,它已经不太成问题了。
你可能会想:“还要来点儿酒吗?”是小孩都听得懂的简单法文,而政治就需要更精深的语言技巧了。不错,但这并不是两段对话的重要区别所在。
小型化(miniaturization)的趋势将使今天的语音输入比过去更遍及于每一个角落。
假如你期望电脑说话的时候,不要把名字弄错,那么你就得先把那些名字存储起来。存储好的声音不能适用于随机的讲话。由于这个原因,人们使用了第二种方式——合成。
虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就很清楚了,我们必须把口语中的单字,变成电脑可读的命令(command)。语音识别问题有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓字的关联性,是指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。
说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更丰富的输入媒介。让电脑“听话”
假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”(wordwindows)一那么电脑只需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个字左右就够了,不需要5个那么多。
假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。
笔形的系统很可能被视为笨拙的过渡期工具,既太大,又太小。按钮式的设计也不理想。看看你的电视机和录像机遥控器,你就会明白按钮的局限所在:按钮式装置完全是为手指纤细、眼力极佳的年轻人设计的。
人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是过去电话公司的一项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通用服务”。今天,电脑的普及率更高,而且更加个人化。我们在网络的外围——通过个人电脑、话筒,或经由一小块智能卡(smartcard)的协助,能够完成更多的语音识别。
电脑在语音识别方面一直没有多大的进展,主要原因不在于缺乏技术,而在于缺乏眼光。每当我在语音识别的成果展示会或产品广告中,看到人们拿着麦克风说话时,我都很奇怪:难道他们真的忘了,说话最大的价值之一就在于能让双手空出来做别的事情吗?当我看到人们把脸贴近屏幕讲话时,我也很奇怪:难道他们忘了,能够遥控是使用声音的原因之一吗?而当我听到人们要求设计出能够识别出各个独立用户的语音系统时,我问自己:他们是不是忘了,我们是在和个人电脑说话,而不是在和公用电脑说话?为什么似乎每个人解决问题的着眼点都落在错误的方面呢?
我要重申,累赘是件好事。并行信道(手势、眼神和谈话)的使用是人类沟通的核心。人类自然而然地倾向于使用并行的表达方式。假如你只会讲一点点意大利语,和意大利人通电话将会非常辛苦。但当你住进一家意大利旅馆,发现房间里没有香皂时,你不会拿起电话,而会直接下楼,走到前台值班员那里,拿出你在语言速成学校学会的所有看家本领,让他拿香皂给你,你甚至一边说一边还会做几个洗澡的动作。
电脑正变得越来越小,昨天还占据了整个房间的电脑设备,今天已出现在你的桌面上,明天你更可以把袖珍型电脑戴在手腕上。
一旦挣脱了手指张开幅度的束缚(手指张开的幅度决定了一个舒适合用的键盘的形状和大小),电脑的大小就会更多地受到衣兜、钱夹、手表、圆珠笔和其他类似物品的体积的影响。在这种种形式中,信用卡很接近我们想要的最小尺寸,显示器很小,因此图形用户界面变得没有多少意义了。
如果你已有很长时间未曾使用调制解调器,调制解调器大小的变化更足以说明真正的变化有多大。不到15年以前,一个速率1200波特的调制解调器(价格约1000美元)几乎像一个侧躺的烤箱一样大。当时,速率9600波特的调制解调器就像一个放在架子上的大铁笼子一样。然而到了今天,你可以在一块智能卡上找到速率为19200波特的调制解调器。即使已经把调制解调器做成倍用卡般大小,我们仍然有许多空间没有好好利用,现在的设计有相当部分纯粹是为了外型的缘故(为了填满插口,或是大得让我们能握住,而不会随便弄丢)。我们所以没有把像调制解调器这样的东西装在“大头针头”上,主要不是技术上的原因,而是因为我们很容易把大头针随手乱放,再找起来很困难。
当有人间你要不要添一点酒的时候,他可能正伸长了手臂去拿酒瓶,眼睛也正注视着你的空酒杯。也就是说,你正在解码的信息并不只是声音而已,而是并行而累赘的多重信息。而且,所有的主体和客体都处于同一时空。这种种条件同时作用的结果才使你能听懂他的意思。
在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,念出这些词汇的时候,字与字之间必须有明——显——的——停——顿。
让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,500、5000还是5个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要多少它可以识别的单字?这个问题提示我们把词汇根据上下文分成组,这样在需要的时候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时,它会把信息输入我的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。
对于大多数人而言,打字并不是一种理想的界面。假如我们能和电脑说话,那么即使是最坚定的反机器分子,大概也会以更大的热情来使用电脑。但是,目前的电脑仍然又聋又哑。这究竟是为什么呢?
目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。
语音合成器会根据一些规则,把一串文字的内容逐字念出来(就跟你念这句话时没什么两样)。每一种语言都有所不同,因而合成的难易度也不尽相同。
即使机器能够发出每一个和任何一个单字的音,还有别的问题。把合成的字音集合起来,在词组或句子的层次上,加上整体的节奏和语气,是非常困难的事情。然而这样做非常重要,不仅能让电脑说的话好听,而且还能根据说话的内容和意图表现出不同的色彩、表情和语调。否则,电脑发出来的声音就好像醉酒的瑞典人在喃喃自语一样单调得让人倒胃口。
同“打电话、传心曲”一样,我们会发现我们也将能通过声音把我们的希望传达给机器。有些人会表现得像教官一样未教导他们的电脑,另一些人则会用理性的声音。说话和授权密不可分。你会不会对七个小矮人发号施令呢?
当我们把讲话看成一种互动的和对话的媒介时,我们离语音识别中最容易的那部分已经没有多远了。字典里找不到的字讲话这种媒体常常充斥着字典里找不到的字音。言谈不仅比白纸黑字更多姿多彩,而且对话中的特点,例如形体语言这样的非文字语言的运用,往往能使对话浮现额外的意义。
英语是最难合成的语言之一,因为我们以一种奇怪而且似乎不合逻辑的方式来书写英文。其他一些语言,例如土耳其语,就容易多了。事实上,要合成土耳其语非常容易,因为基马尔在1929年把土耳其语从使用阿拉伯字母改为使用拉丁字母,这样转换的结果,使声音和字母之间形成了一一对应,每个字母都发音:没有不发音的字母或令人困惑的复合元音;因此,在单字的层次上,土耳其语简直令电脑语音合成器的美梦成真。
第三个问题是字音的模糊性问题。和电脑说话的时候,我们不希望像一个观光客对外国小孩说话一样,夸张地吐出每个单字,而且每念一个字,都停顿一下。因此这个轴最具挑战性。但是我们也可以把问题稍稍简化,也就是把语言看成许多字一起发出的声音,而不是许多单个字的声音。事实上,处理这种连成一片的字音,很可能正是你的电脑走向个人化的必经过程和必须接受的训练的一部分。
真正的问题也正是最明显的问题。你必须提前把话录下来,才能运用预录的谈话。
有可能的。20年后,你可能对着桌上一群八英寸高的全息式助理说话。这种预想一点也不牵强。可以肯定的是,声音将会成为你和你的界面代理人之间最主要的沟通渠道。
如果我想在电话亭里和一部航空公司的电脑谈话,我可以先接通我的家用电脑或拿出我的袖珍型电脑,让它先替我把声音转换成机器看得懂的信号,然后,再和航空公司的电脑联络。
1978年,我们在麻省理工学院采用了一套先进的、依赖于说话者发音的、能够识别连续语音的语音识别系统。但是就像当时和现在的许多同类系统一样,当说话者的声音中带有哪怕些微的紧张时,系统就会失误。当研究生向我们的赞助者演示这套系统时,我们希望它表现得完美元缺。结果,由于过度焦虑,作演示的研究生声音绷得紧紧的,系统也就完全失灵。
原因很简单。直到最近,我们一直被两个带有误导性的观念所驱使。第一个观念是受到老式电话通信系统的影响,希望任何人在任何地方都能拿起话筒对电脑发号施令,而不需要和接线员对话,而且不管说话的人怎样南腔北调都无关紧要。另外一个挥之不去的想法来自于办公自动化——我们希望有一种会说话的打字机,我们对着它一口气不停他说,它能一字不差地把我们的口述转化成文字记录下来。由于大家一直只把注意力放在这两个方面,使我们拖延多年,始终无法实现一些更容易实现的(同时也是有用的)目标,即让电脑在高度个人化而且互动的环境中,识别并了解对话内容。
许多桌上型电脑用户都不能充分认识过去10年来电脑体积的缩小幅度,原因是电脑体积的变化包含不同的方面,例如键盘的尺寸仍然尽可能保持不变,而显示器反而变大了。因此,今天桌上型电脑的整体大小仍和15年前的苹果型机不相上下。
我们现在开始看到(听到)有些系统正把语音合成和声音存储两种方式结合在一起,随着数字化越来越普遍,最终的解决方案将是两者合一。小型化的趋势在下一个千年里,我们会发现我们和机器说的话,与我们和人类说的话一样多,或甚至比跟人类说的话还要多。和没有生命的物体说话时,人们最感困扰的似乎是自我意识问题。我们跟狗和金丝雀讲话的时候,觉得非常自在,但是和门把手或灯柱说话,就会觉得怪怪的(除非你烂醉如泥)。难道我和烤箱说话的时候会不觉得傻乎乎吗?大概跟对着电话应答机讲话半斤八两吧。
我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字越少,对电脑而言就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如果说话的人能一个字一个字分开发音,电脑就听得更明白,识别起来也就更容易。
能够在一臂远的距离之外使用电脑,是非常重要的事情。想象一下,假如你和别人说话的时候,他、她的鼻子尖老是凑到你的脸上,那是什么感觉!我们通常都隔着一定的距离与别人讲话,偶尔还会转过身去同时做些别的事情。甚至有时已经走到别的地方而互相看不见了,还在说着话。这种情况屡见不鲜。我希望有一部在“听力范围”之内的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上飞过的声音)区分开来。