《数字化生存》第30/51页


养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,
不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在
的分析复杂词汇的能力基本为零。
说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用
完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、
或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,
更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更
丰富的输入媒介。让电脑“听话”
假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂
音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些
杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。
目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。
虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能
力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就
很清楚了,我们必须把口语中的单字,变成电脑可读的命令(command)。语音识别问题
有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓字的关联性,是
指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。
我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字
越少,对电脑而言就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如
果说话的人能一个字一个字分开发音,电脑就听得更明白,识别起来也就更容易。
在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,
念出这些词汇的时候,字与字之间必须有明――显――的――停――顿。
当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统
能够服务于任何说话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进
一步,都会使问题变得越来越困难。当到达三条轴的远端时,我们期望电脑能够识别任
何人说的任何字,以及“印(任)何程度”的含混字。人们通常都认为,我们必须在两
条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不对。
让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,50
0、5000还是5 个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要
多少它可以识别的单字?这个问题提示我们把词汇根据上下文分成组,这样在需要的时
候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时,它会把信息输入我
的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。
假如你把词汇量看成在任何情况下都需要的一组字――称为“字窗”(wordwindow
s)一那么电脑只需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个
字左右就够了,不需要5 个那么多。
人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是
过去电话公司的一项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通
用服务”。今天,电脑的普及率更高,而且更加个人化。我们在网络的外围――通过个
人电脑、话筒,或经由一小块智能卡(smartcard)的协助,能够完成更多的语音识别。
如果我想在电话亭里和一部航空公司的电脑谈话,我可以先接通我的家用电脑或拿出我
的袖珍型电脑,让它先替我把声音转换成机器看得懂的信号,然后,再和航空公司的电
脑联络。
第三个问题是字音的模糊性问题。和电脑说话的时候,我们不希望像一个观光客对
外国小孩说话一样,夸张地吐出每个单字,而且每念一个字,都停顿一下。因此这个轴
最具挑战性。但是我们也可以把问题稍稍简化,也就是把语言看成许多字一起发出的声
音,而不是许多单个字的声音。事实上,处理这种连成一片的字音,很可能正是你的电
脑走向个人化的必经过程和必须接受的训练的一部分。
当我们把讲话看成一种互动的和对话的媒介时,我们离语音识别中最容易的那部分
已经没有多远了。字典里找不到的字
讲话这种媒体常常充斥着字典里找不到的字音。言谈不仅比白纸黑字更多姿多彩,
而且对话中的特点,例如形体语言这样的非文字语言的运用,往往能使对话浮现额外的
意义。
1978年,我们在麻省理工学院采用了一套先进的、依赖于说话者发音的、能够识别
连续语音的语音识别系统。但是就像当时和现在的许多同类系统一样,当说话者的声音
中带有哪怕些微的紧张时,系统就会失误。当研究生向我们的赞助者演示这套系统时,
我们希望它表现得完美元缺。结果,由于过度焦虑,作演示的研究生声音绷得紧紧的,
系统也就完全失灵。
几年以后,另外一个学生想到一个绝妙的主意:找出用户说话时会在什么地方停顿,
并且设走电脑程序,让电脑在适当的时候发出“啊哈”的声音;这样,当一个人和机器
说话的时候,机器每隔一会几就会发出“啊哈――”、“啊――哈”或“啊哈”。这些
声音产生了极大的安抚效果(就好像机器在鼓励使用者继续对话),使用者变得比较放
松,而系统的表现也突飞猛进。
这个观念体现了两点重要的意义:第一,并非所有的发音都需要有字面上的意义,
在沟通中才有价值;第二,有些声音纯粹只是对话中的礼仪。当你接电话的时候,没有
以适当的间隔对来话人说“嗯”,来话人会变得很紧张,而且最终会探问:“喂,你在
听吗?”“啊哈”或“嗯”的意思不是“是”、“否”或“也许”它基本上是在传达一
个比特的信息:“我在这里”。并行的表达
想象一下这样的情景:你和一群人围坐在一张桌子旁,同桌的人除了你以外都说法
语。你只在中学粗粗修过一年蹩脚的法语、突然有个人转过头来对你说:“还要来点几
酒吗?”你完全听懂了。接着,这个人把话锋一转,谈起法国的政治来了。除非你能说

当前:第30/51页

提示: 双击屏幕进入下一页