按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
画图的时候,鼠标和跟踪球就一筹莫展了。不信你试着用跟踪球来签签名看。在这种时候,用“数据板”是个好得多的办法,也就是用像圆珠笔一样的笔尖,在一个平滑的表面上操作。
配置了绘图数据板的电脑并不多,而那些配置了数据板的电脑又仿佛患了精神分裂症一般,不知道该怎样安置数据板和键盘的位置才合适,因为两者最好都直接摆在显示器下方的中央位置。解决冲突的方式通常都是把键盘放在显示器下方,因为大多数人(连我也在内)根本不碰图案。
结果,数据板和鼠标都被摆在旁边,我们必须学会某种不大自然的手、眼协调方式。
你一边在下面操作数据板或鼠标,一边用眼睛盯住屏幕;也就是说,我们是靠碰触来作画的。光笔与数据扳鼠标是道格拉斯。恩格巴特在1964年发明的。当初他设计鼠标是为了指点文件,而不是作画。但是这个发明却流传下来,而且今天随处可见。美国国家艺术基金会主席简。亚历山大最近开玩笑说,只有男人才会想到把它叫做鼠标。
在她说这番话一年以前,伊凡。苏泽兰完善了直接用光笔在屏幕上作画的概念(50年代,其防空系统曾使用过一些粗糙的光笔)。苏泽兰的方法是:跟踪由5个光点构成的十字形光标。要停止绘图,只要抖一下手腕,退出跟踪就可以了。这是个精巧、但不太精确的终止画线的方式。
今天,光笔事实上已经踪影全无。因为把手举在屏幕前是一回事(且不说当血液顺着手掌不停地往下流时,要长时间保持这个姿势已经十分辛苦了),而拿着一管和电脑拴在一起的、两盎斯重的笔,更会令手掌和手臂异常疲劳。有些光笔的直径达半英寸,用的时候感觉就好像夹着雪前写明信片一样。
在数据板上画起图来则格外舒服,而且只要多费点心思设计,笔尖也能产生出如艺术家画笔一样的质感和丰富效果。到目前为止,数据板通常让人感觉好像是用圆珠笔在一块平滑而坚硬的板上作画,因此必须在桌面上靠近你和显示器的地方,为这块板找个安身之处。既然我们的桌上已经堆满了东西,如果要让数据板流行起来,唯一的办法是家具制造商把数据板直接做进桌面里,这样一来,就没有单独的数据板了,只有桌子本身。你的眼睛会说话设想一下一面读着电脑屏幕上的文字,一面问:那是什么意思?她是谁?我怎么到了那个地方?问题中的“那”、“她”和“那个地方”是由当时你眼睛注视的方向决定的。这些问题牵涉到你的眼睛和文件的接触点。我们通常都不把眼睛当作输出装置,但我们却总是以眼睛来输出信息。
人类能够觉察彼此目光的方向,并且进行视线的交流,这种本领当真神奇不已。想象一下,站在20英尺以外的一个人有时候直视你的眼睛,有时目光却从你肩膀的上方穿过,注视着远方。使此人目光注视的方向和你的视线只有不到一度的差距,你也能立刻感觉到其中的差异。这究竟是怎么回事呢?
你当然不是用三角学的方法算出来的,换句话说,并不是计算另外一个人的视线是否与你的视线相交。不,其中另有溪跷。你的眼睛和那人的眼睛之间一定传递了一个讯息,但我们还不清楚个中奥妙。跟踪眼球的运动总之,我们总是用眼睛来指示物体,当有人问你,某某人到哪里去了,你的回答可能只是注视着敞开的房门。当你说明要带什么东西时,可能会盯着一个旅行箱,而不是另一个。这种视线的指示,加上头部的动作,可以是非常有力的沟通渠道。
今天,已经有一些技术可以跟踪眼睛的运动。我最早看到的一种技术,是戴在头上的眼球跟踪器(eyetracker)。当你读文件内容时,跟踪器会把屏幕上的文字从英文变成法文。当你的中心视线不断地从一个字移到另一个字的时候,你看到的每个字都是法文,于是整个屏幕看起来是百分之百的法文。但是,眼球没有被跟踪的旁观者看到的屏幕,却大约99%都是英文(也就是说,除了戴着跟踪器的那个人正在看的字是法文外,其他的字都是英文)。
更现代的眼球跟踪系统则采用远距离电视摄像头,因此用户不需要戴任何装置。能显像的电信会议配置尤其适合进行眼球跟踪,因为用户往往隔着相对固定的距离坐在屏幕前面,而且你通常都会注视着和你进行远端通信的那个人的眼睛(电脑会知道眼睛的位置)。
电脑越清楚你的位置、姿势和眼睛的特点,就越容易掌握你注视的方向。具有讽刺意味的是,这种利用眼睛作为输入装置的异乎寻常的媒介可能最先应用在一个平淡无奇的结构中,即坐在电脑桌前的人身上。
当然,如果你把眼睛(看)和另外一种输入工具——嘴巴(说)同时使用,效果会更好。
。。
5、咱们能不能聊聊弦外之音
...
对于大多数人而言,打字并不是一种理想的界面。假如我们能和电脑说话,那么即使是最坚定的反机器分子,大概也会以更大的热情来使用电脑。但是,目前的电脑仍然又聋又哑。这究竟是为什么呢?
电脑在语音识别方面一直没有多大的进展,主要原因不在于缺乏技术,而在于缺乏眼光。每当我在语音识别的成果展示会或产品广告中,看到人们拿着麦克风说话时,我都很奇怪:难道他们真的忘了,说话最大的价值之一就在于能让双手空出来做别的事情吗?当我看到人们把脸贴近屏幕讲话时,我也很奇怪:难道他们忘了,能够遥控是使用声音的原因之一吗?而当我听到人们要求设计出能够识别出各个独立用户的语音系统时,我问自己:他们是不是忘了,我们是在和个人电脑说话,而不是在和公用电脑说话?为什么似乎每个人解决问题的着眼点都落在错误的方面呢?
原因很简单。直到最近,我们一直被两个带有误导性的观念所驱使。第一个观念是受到老式电话通信系统的影响,希望任何人在任何地方都能拿起话筒对电脑发号施令,而不需要和接线员对话,而且不管说话的人怎样南腔北调都无关紧要。另外一个挥之不去的想法来自于办公自动化——我们希望有一种会说话的打字机,我们对着它一口气不停他说,它能一字不差地把我们的口述转化成文字记录下来。由于大家一直只把注意力放在这两个方面,使我们拖延多年,始终无法实现一些更容易实现的(同时也是有用的)目标,即让电脑在高度个人化而且互动的环境中,识别并了解对话内容。
我们也忽略了说话在文字以外的价值。举例来说,今天的电脑需要人全神贯注。你通常都必须正襟危坐,同时把注意力放在互动的过程和互动的内容上。在走来走去时使用电脑,或在有多组对话时让它参与其中的一组,简直是不可能的。语音识别可以改变这一切。
能够在一臂远的距离之外使用电脑,是非常重要的事情。想象一下,假如你和别人说话的时候,他、她的鼻子尖老是凑到你的脸上,那是什么感觉!我们通常都隔着一定的距离与别人讲话,偶尔还会转过身去同时做些别的事情。甚至有时已经走到别的地方而互相看不见了,还在说着话。这种情况屡见不鲜。我希望有一部在“听力范围”之内的电脑,它必须能把说话的声音和周围的杂音(例如空调或飞机在头顶上飞过的声音)区分开来。
讲话胜于文字的另一个原因是,它可以有其他附带方式来传递信息。家里有小孩或养了宠物的人都知道,怎么样讲话可能比讲什么话更重要。说话的语气非常关键。例如,不管主人如何吹牛,说他、她宠爱的小狗如何如何,小狗似乎只对语调有反应,它内在的分析复杂词汇的能力基本为零。
说出来的话除了字面的意思之外,同时传递了大量的信息。讲话的时候,我们使用完全一样的字眼,可以表达或激情洋溢、或嘲讽、或愤怒、或闪烁暧昧、或曲意逢迎、或精疲力竭等等不同的情绪。在电脑语音识别的研究中,大家都忽略了这些细微的差异,更糟的是,把它们视为暇疵,而不是特点。然而,正是这些特质,使说话成为比打字更丰富的输入媒介。让电脑“听话”
假如你的外语能力还不错,但是还不到应对自如的地步,你会发现,要听懂饱受杂音干扰的新闻广播实在很困难。相反,对于一个能把外语说得极为流利的人而言,这些杂音充其量只是扰人罢了。识别语言和理解语言,二者密不可分。
目前,电脑无法像你我一样,先对某件事的意义建立共识,进而理解事物的意义。
虽然未来的电脑无疑会具有更多智能,目前我们仍不得不先设法解决机器的语音识别能力问题,而把机器的理解力问题搁置一边。一旦把这两项任务予以分化,路该怎么走就很清楚了,我们必须把口语中的单字,变成电脑可读的命令(mand)。语音识别问题有三个变数:词汇量、机器对说话者的依赖程度以及字的关联性,所谓字的关联性,是指机器能在多大程度上依照人们日常讲话中的自然强弱节奏把单字含混在一起。
我们可以把语音识别的这三个方面想象成三维立体轴。在词汇轴上,需要识别的字越少,对电脑而言就越容易。假如系统事先就知道说话的人是谁,问题就更简单了。如果说话的人能一个字一个字分开发音,电脑就听得更明白,识别起来也就更容易。
在这三条轴的起始点,我们可以找到少得不能再少、完全依赖于说话者语音的词汇,念出这些词汇的时候,字与字之间必须有明——显——的——停——顿。
当我们顺着任何一条轴移动的时候,也就是说,增加电脑所能识别的词汇,让系统能够服务于任何说话者,或是容许字与字相连的程度越来越高,在这种情况下,每前进一步,都会使问题变得越来越困难。当到达三条轴的远端时,我们期望电脑能够识别任何人说的任何字,以及“印(任)何程度”的含混字。人们通常都认为,我们必须在两条或三条轴上都达到最远端时,语音识别系统才能对人类有用。这完全不对。
让我们一个一个来考虑。谈到词汇多寡的时候,我们可能会问:多少才算多呢,500、5000还是5个字?但这个问题其实应该是:在任何时候,电脑存储器中究竟需要多少它可以识别的单字?这个问题提示我们把词汇根据上下文分成组,这样在需要的时候就可以把大群词组放进存储器中。当我要求我的电脑接听电话时,它会把信息输入我的电子电话本。当我计划到什么地方旅行时,它则把地名输入到上面。
假如你把词汇量看成在任何情况下都需要的一组字——称为“字窗”(wordwindows)一那么电脑只需要从一个小得多的字音库中拣字就可以了,这一字音库只要有500个字左右就够了,不需要5个那么多。
人们所以假设需要有能够识别各个独立讲话人的语音识别系统,是由于这种功能是过去电话公司的一项要求,电话公司的中央电脑必须能听懂每个人的话,提供一种“通用服务”。今天,电脑的普及率更高,而且更加个人化。我们在网络的外围——通过个人电脑、话筒,或经由一小块智能卡(smartcard)的协助,能够完成更多的语音识别。
如果我想在电话亭里