理想下载站 手游攻略 新游动态 为那些想从事语音产品的人而写语音产品有哪些

为那些想从事语音产品的人而写语音产品有哪些

时间:2024-06-04 05:11:14 来源:网络整理 浏览:0

全文共4683个字,2张图片,阅读需要10分钟。

- - / 开始 / - -

近年来,自然语言处理技术的飞速发展,再次点燃了语音交互的话题,一些公司甚至开始招聘语音产品经理、语音交互设计师,也有人认为,这会成为未来下一波的热门职位。

去年双十一,天猫精灵走进千家万户。

一开始,大家对这些语音交互产品充满期待;然而,回顾一年多以后,这些产品似乎并没有如预期那样改变人们的生活。

天猫精灵用户只能用两个字来形容这款产品:蠢!

如今人工智能技术远比五年前先进,但是从Siri出现直到现在,人们对于语音交互产品的评价从来没有改变过,那就是:很傻!

语音产品似乎总是处于一个尴尬的境地。

你要明白这一点:我觉得单从技术角度去分析是完全不够的,目前的人工智能技术只能解决语音识别的问题。

语音识别的技术越来越强大,甚至能听懂方言;然而“傻瓜”是用户心中的概念——即便能听懂方言,语音产品也不过是一个能听懂方言的“傻瓜”。

如果我们不能从哲学、认知科学的角度去分析为什么用户会觉得这些产品很蠢,那么我们对语音交互的理解就会陷入死胡同。

为了说明这个问题,我们来一步步来,首先了解一个概念:交互的边界。

1. 互动的边界

当我们和机器交互的时候,我们能对机器做的事情是被限制在一个有限的范围内(也就是指令是一个有限的集合),我把这个范围定义为交互的边界。

传统的可视化交互界面都是有边界的交互;并且交互的边界需要尽可能的清晰。

交互设计中有一个很重要的原则,叫可视化原则,就是说用户需要能够看到自己能够进行的所有操作——把交互的边界展示给用户,不要让用户自己去寻找边界。

在可视化界面的交互中,所有用户操作都是由设计师预先设计好的,用户只需回答“选择题”;并且用户也知道自己只能回答“选择题”。

对于计算机来说,语音交互只是信息呈现方式的不同,其边界本质并没有改变。

于是就有了最原始、还未普及的语音交互形式,以选择题的形式:“个人服务请按1,公司服务请按2,人工咨询请按0”——这样的语音交互界限清晰,效果很好,从未有用户用“傻瓜”来形容它。

然而,语音交互如果能像视觉交互一样,成为一道选择题,岂不是更好?为什么说到视觉交互,人们从来不提人工智能,而人们却总是把语音交互和人工智能混为一谈呢?

我们来看第二个概念:信息的维度。

2. 信息的维度

听觉信息与视觉信息在物理性质上完全不同。

因此,在呈现交互的边界时(即提供“选择题”的选项时),视觉界面可以在时间和空间上呈现任意复杂的界面,完成复杂而高效的操作;而语音界面,其选项呈现得快则消失,必须依靠人的短期记忆来储存选项。

但人类的短期记忆容量非常有限,只能储存7个简单的信息模块,因此传统语音界面的复杂度也受限于人类短期记忆容量的范围,如此少的信息量注定让这种有限的语音显得有些别扭,只能用于“小事”,不太可能成为重要的交互方式。

3.人与现实世界的互动

回顾我们的现实世界,我们基于视觉信息所做的一切都类似于“多项选择题”。

比如,看到一个按钮被按下,看到一双筷子被拿起——只有当空间中存在这个“选项”时,我们才能采取行动。

换句话说:我们基于视觉信息与现实世界的交互,仍然类似于一道有边界的“选择题”。

然而,当人们通过语音进行交互时,并不是在进行多项选择决策,而是界限模糊(我们可以理解为没有界限)。

你所说的内容不一定是对方提供的选项之一;你发送的信息可以富有创意。

正是因为人与人之间语音交互的界限变得模糊,语音交流的信息量突破了人类短期记忆的限制,成为人们交流的最重要方式。

因此人机语音交互要想成为重要的交互形式,必须突破传统的“多选”方式,成为一种无边界的交互形式。

换句话说:用户可以随意发出适合场景的命令,而不需要让机器告诉用户它理解了什么。

4.语音和人工智能

然而当你不知道机器能够理解什么的时候,你只能假装对方就像人一样,能够理解一切。

因此语音交互一旦突破传统界限,将会朝着不可阻挡的方向发展。

当你听到电话声音为你提供选项和界限时,你不会认为对方是人类;但对于像 Siri 这样不提供界限的交互,你自然会想象对方是一个聪明、有情感的生物。

很多人喜欢调侃Siri,因为你把它想象成了一个人;而当它远远达不到一个正常人应有的决策和判断能力时,你就会形容它很笨。

语音交互刚开始的时候,是基于真人的,只有两种状态,一种是“像人”,一种是“不像人”,不像视觉界面,可能人们还是愿意去学习它的交互的。

为了说明视觉交互和语音交互的区别,需要举一个例子:

当一个农村老太太使用可视化界面的产品时,如果她不会操作,她可能会怪自己笨;但如果是语音交互产品,她无法正常交互,老太太一定会认为语音交互产品很笨。

——这就是语音交互的尴尬。

真正的语音交互若要发挥其作用,其最终的效果是与人际交流有同样的逻辑,因此语音交互的发展始终期待着人工智能技术的突破。

然而,人工智能现在的水平到底如何?奇点真的如大家所说的那样临近吗?

没有人能够判断这一点,但是从认知科学的角度,我可以给大家提供一些想法。

5.人工智能的当前发展阶段

近年来深度神经网络的快速发展着实令人恐惧。

了解神经网络算法的人都应该明白,神经网络算法的底层逻辑不同于传统机器逻辑判断的算法,而是以类似人类神经系统激活的方式运作——这也是大家相信机器可能超越人类的重要原因。

然而从认知科学的角度来看,当前的人工智能还处于非常初级的阶段。

人类的认知分为:感觉、知觉、注意、记忆、表征、思维、想象等;而感觉知觉是人类认知的最低层次,也是研究最多的认知现象。

对于表象、思维、想象等认知现象,科学研究还不多,这也是人类认知最神秘的地方,这也是很多宗教或者迷信认为人类有灵魂的原因。

我们来看看目前人工智能的前沿领域:图像识别、自然语言处理等,从认知科学的角度看,它们相当于人类感官知觉的阶段,还远远没有达到表征、思考、想象的程度。

但近年来,AlphaGo在围棋领域的表现,却让一些人开始怀疑:或许人类高级思维能力的机制,与感知机制是一样的。

语音产品体验报告_语音产品有哪些_语音产品

我们不会讨论人工智能是否能够突破认知领域的研究而超越人类,或者人工智能的发展是否会像巴别塔一样,永远无法到达它的目标。

我们看不到这条路的明确尽头,或许我们可以换一种思路:

语音交互并不一定需要依赖通用人工智能才能达到人类意识的水平,而是可以通过直接模拟人类的认知逻辑,实现类似人与人交流的体验。

人与人之间的交流虽然是一种没有明确界限的互动,但仍有规则可循。

最典型、最重要的特征就是无意识的推理:人们在进行交流时,总是在进行无意识的推理,并且也假设对方也能进行无意识的推理。

大多数情况下,用户认为语音产品很笨,是因为它们缺乏无意识推理的认知逻辑。

6.无意识推理

一篇文章不可能涵盖所有的无意识推理,因此我仅谈论几点以激发讨论。

1.环境背景推理

我们常用的智能音箱、智能汽车等,都有一个激活命令。

当你在家时,即使你一个人,也需要调用:“天猫精灵”来激活。

——这在连续通话中尤其不方便。

当我停顿了一会儿,再次和它说话的时候,我意识到我的话语是徒劳的,我必须再次呼唤它的名字来激活它。

——这是一种非常反人类的互动。

正常人相互交流时,不会使用这种激活逻辑,而是一种过滤逻辑:人类的听觉系统始终处于在线状态。当我听到一句话时,如果我下意识地知道房间里只有我们两个人,我会立即处理这个信息并做出回应。

如上图所示,人与人交互的逻辑和语音产品交互的逻辑是不同的。

人与人之间的互动是时刻在线的,然后信息被过滤;然而如今的语音产品,虽然技术本质上也是随时在线,但对于用户来说,却多了一个激活的过程——相当于手动按下一个开关。

如果房间里有多个人会发生什么情况?

我等了一会儿,当没有人回应时,我问:“你在跟我说话吗?”然后继续谈话。

类似地,人无时无刻不在利用环境信息进行无意识的推理。为了模拟这一点,我们在做语音产品的时候,可以考虑将环境信息的数据多维度结构化,存放到缓存中,然后在用户的指令和环境信息之间进行逻辑运算,再做出响应。

比如在汽车上就特别容易做到这一点,通过座椅的传感器信息,很容易知道车里有多少人。

2.多通道(多模态)信息推理

当一群熟人坐在一起时,没有人总会在说话前叫对方的名字。

当我说话前看着你时,这意味着我在和你说话。

——人的表情、动作等视觉信息在语音交流中也非常重要。

纯粹的语言信息存在着诸多缺陷,所以在语言交流的过程中,人类还需要借助通过视觉或其他渠道收集的信息来辅助理解和判断,否则语言交流就会困难得多。

在高级语言交流中,这些信息非常复杂,但对于不太复杂的语音产品来说,最重要的就是“眼神方向”。

虽然这只是一个简单的逻辑,但是在人多的环境中却能发挥非常重要的作用。

天猫精灵出了个乌龙。。,当你把音量开到最大,播放轻快的音乐时,它听不到你的任何指令。

但在嘈杂的环境中人们如何相互交流呢?

我会看着你说些什么,然后你就会假装没听清,然后把我拉到安静的地方交流。

因此语音产品如果能够利用视觉通道的信息,对于语音交互的流畅性会有很大帮助。

例如,在音乐播放音量很大的环境中,当天猫精灵“看到”我转过身来和它说话时,它应该自动暂时调低音量,并听我再说一遍。

比如,如果你家里的同一个房间里有多盏灯,如果你想通过智能音箱关掉这些灯,你就得给每盏灯起一个名字,这样很不自然,也容易忘记。但如果能利用视觉通道的信息来辅助判断,那么你只需要指着灯说“关掉这盏灯”就可以了。

3. 上下文参考信息推理

上下文在人与人交流的过程中也是非常重要的,上下文信息最重要的作用就是代词的指称,要实现自然语言交互,指称信息必不可少。

Linda问:“最近有啥好玩的事吗?”

爱丽丝说:“附近有一个游乐场,很棒。”

琳达说:“我们去那儿吧。”

最后一句中的“那里”指的是“操场”。

这种使用代词的互动方式在人类的交往过程中非常常见并且非常重要。

人们在交往过程中,会把近期对话中涉及的事物储存在短期记忆中,当对话中遇到代词时,就会无意识地从短期记忆中提取出这些事物,代入句子中,从而理解句子的意思。

天猫精灵目前好像完全不支持引用关系,这个很蠢。不过 Siri 最新版本开始支持引用关系了(以前不行)。比如你用 Siri 搜索一个地方后,说“去那儿”,它就知道你想去你最近搜索过的地方。这就意味着它保存了你最近搜索过的对象。让上下文连在一起,而不是独立存在。

然而实际沟通过程中的指称关系远比这复杂得多——尤其是当人、地点、事物等指称关系同时出现时,需要更深入地理解人类的认知模型,才能让机器实现与人更加顺畅的交互。

七、结论

虽然语音产品有着悠久的发展历史,但是如今的语音产品看起来仍然还是一个新兴领域。

而且,目前语音产品的现状也比较尴尬:

一方面,语音识别技术快速发展,机器的语音识别能力已经超越人类;

但另一方面,更高层次的语言认知模型还未被计算机科学家考虑到,这使得语音产品在实际使用时总是显得笨拙。

为了优化语音交互的体验,让语音交互更有价值,释放语音交互的生产力,需要从认知科学的角度去理解人类对语言的认知模型,实现人与语音产品的自然交互。

- - / 结尾 / - -

标题:为那些想从事语音产品的人而写语音产品有哪些
链接:https://www.ltthb.com/news/xydt/121304.html
版权:文章转载自网络,如有侵权,请联系删除!
资讯推荐
更多
ToonMe怎么取消自动续费?自动续费关闭方法

ToonMe怎么取消自动续费?自动续费关闭方法[多图],ToonMe中的迪士尼滤镜很火爆,有不少小伙伴都喜欢,不过在使用

2024-06-04
航海王热血航线藏宝图位置在哪?全部藏宝图位置坐标大全

航海王热血航线藏宝图位置在哪?全部藏宝图位置坐标大全[多图],航海王热血航线藏宝图在哪里?怎么样才能找到藏

2024-06-04
cf手游云悠悠角色怎么获得?云悠悠什么时候上线

cf手游云悠悠角色怎么获得?云悠悠什么时候上线[多图],cf手游云悠悠角色什么时候出?云悠悠角色获得的方法是什

2024-06-04
英雄联盟联动优衣库活动详情一览:LOL联动优衣库T恤购买地址入口

英雄联盟联动优衣库活动详情一览:LOL联动优衣库T恤购买地址入口[多图],英雄联盟联动优衣库T恤衫什么时候发售

2024-06-04