如何打造良好的語音交互體驗？這兒總結(jié)了四個方法

2018/1/8 9:21:14來源：互聯(lián)網(wǎng)

回顧人機(jī)交互發(fā)展是「技術(shù)提高」與「載體創(chuàng)新」交替螺旋促進(jìn)在推動著人獲取信息的服從賡續(xù)提拔，成本賡續(xù)降低。

AlphaGo先后打敗李世石和柯潔，百度發(fā)布主動駕駛體系「阿波羅」這一次由AI引領(lǐng)的技術(shù)提高正在發(fā)生?；诖罅考儍魯?shù)據(jù)的深度學(xué)習(xí)給人工智能帶來的了偉大的提高，這種提高重要表現(xiàn)在三個維度。

認(rèn)知能力 – 基于用戶舉動的畫像，將人機(jī)交互從「單向」關(guān)系帶入「雙向關(guān)系」。
感知能力 – 由觸摸輸入到以語音輸入、圖像識別為核心的全天然交互。
天然語音輸出能力 – 帶來新的”語音“設(shè)計材料。

語音對于體驗設(shè)計師來說是新的設(shè)計材料，它有哪些設(shè)計挑釁？語音設(shè)計有框架可尋嗎？有哪些設(shè)計方法？我們將在下面的文章與你分享。

二.設(shè)計挑釁

從「右邊界」設(shè)計到「無邊界」設(shè)計

當(dāng)我們設(shè)計App界面，交互設(shè)計師會窮舉用戶在固定像素界面內(nèi)所有可能的操作，逐一設(shè)計恰到益處的用戶反饋。但是對于語音交互用戶的輸入是沒有邊界的，用戶可能的輸入將遠(yuǎn)遠(yuǎn)超出你可能的窮舉的范圍。從「有形」的設(shè)計到「無形」的設(shè)計，視覺的設(shè)計規(guī)范在語音設(shè)計過程中將完全失效。

從「進(jìn)場」交互到「多距離空間」交互

語音交互重要分為近場交互（例如：度秘/Siri）和中場交互（車載）、遠(yuǎn)場交互（智能音箱）。

多距離場景的有以下幾個維度的不同：

（1）場景特性：在非近場交互的場景下用戶可能在其他事情上，而非專注在其他義務(wù)，這給如何讓用戶最小成本的獲取當(dāng)前體系的狀況帶來挑釁，「我喚醒了設(shè)備嗎」「我們可以說了嗎」每一個節(jié)點需求都必要多維度的定義。

（2）輸入體例：常用的輸入體例有實體操作（按鈕/旋鈕等等），觸摸，語音，動作，在近場交互時實體與觸控是第一選擇，而當(dāng)中遠(yuǎn)場交互時語音成為輸入體例的第一選擇。伴隨各種智能音箱、或者Iphone X等采用深度攝像頭應(yīng)用的普及，中遠(yuǎn)場景的動作輸入將漸漸成為緊張的輸入體例之一。

三. 設(shè)計建議

用「語音交互框架」匹配「使用場景」

語音交互帶來人機(jī)交互向更天然的方向提拔，人機(jī)交互更趨近于「人人交互」，怎樣理解語音交互框架，我們可以從人人交互一探討竟。

如今回想你讓別人幫你把水杯拿過來，你與這小我的交互節(jié)點是什么樣子的？

首先你要叫他的名字，假如他聽到了會回答你「干嘛呀」或給你個眼神兒，這時候你知道他在聽你說話，你可以繼承說了「把水杯拿來」。他可能必要想想水杯在哪或者問你，當(dāng)他去拿水杯你會看到他正在舉措。將與人的語音交互節(jié)點提煉出來，進(jìn)行總結(jié)就是語音的交互框架：

如上圖所示語音的交互框架由以下四個節(jié)點構(gòu)成，每個節(jié)點用戶有響應(yīng)需求：

喚醒：用戶有得到「是否喚醒語音」反饋的需求
輸入：用戶有得到設(shè)備正在「聽說話嗎」的需求（相稱于loading）
理解：用戶有得到「在幫我說事情嗎」的需求
回答/舉措：用戶有查看義務(wù)是否完成的需求

語音的交互框架詮釋了語音交互流程，等同于觸屏設(shè)備定義的「點擊屏幕」「雙指Pinch」「搖一搖」。但是僅僅了解交互框架是遠(yuǎn)遠(yuǎn)不夠的，比框架更緊張的是語音交互場景，在不同場景下以上「喚醒、輸入、理解、回答/舉措」四個節(jié)點有不同設(shè)計體例。

舉個例子：在語音交互的第二個節(jié)點 – 輸入中必要用「波形高低」與「語音響度高度」相匹配來給用戶正在凝聽的反饋，在不同場景下波形要采取不同的設(shè)計策略：

車載場景：駕車時用戶的視覺細(xì)致力被路況占有，這時候一方面必要引入「?！沟囊宦曊Z音反饋，另一方面必要設(shè)計采取更強(qiáng)的視覺波形確保一瞥既得。

語音音箱：語音音箱的場景雖然不像駕車場景細(xì)致力被強(qiáng)占有，但是它是沒有屏幕的，這時候一樣平常會采取帶強(qiáng)弱有呼吸感的燈效解決反饋的題目。

「無形」的語音能「附著」在各種設(shè)備上，場景也是千變?nèi)f化的。在設(shè)計時要時刻記住「喚醒-輸入-理解-回答/舉措」的語音交互框架和每個節(jié)點的用戶需求，關(guān)注用戶的使用環(huán)境，和視覺/聽覺細(xì)致力的占有情況，不要局限只用聲音做反饋。

喚醒設(shè)計

喚醒是語音交互的第一步，聽說剛發(fā)布的某國產(chǎn)品牌的AI音箱選了十多個喚醒詞，最后才用了「小愛同窗」，Rokid的喚醒詞「若琪」也經(jīng)過了精心的設(shè)計。這充分說明了喚醒設(shè)計緊張性。

喚醒體例可以是義務(wù)的觸發(fā)動作，比如點擊，按壓，動作，語音，表情。目前主流的喚醒體例有以下3三種 – 實體按鈕、假造按鈕、語音喚醒，每種喚醒體例各有特點，適用于不同場景，下面我們來一一分析一下：

（1）實體按鈕：好處是能提供觸覺反饋，使用場景有兩種：

A.當(dāng)用戶的視覺通道被占有時。

B.近場交互且設(shè)備沒有屏幕或屏幕處于熄滅狀況時，例如在熄屏狀況下通過長按Home喚醒。

（2）假造按鈕：喚醒體例有兩種操作體例 – 點擊和長按。兩種體例的本質(zhì)差別有三個：與面部距離、操作成本長按大于點擊、微信養(yǎng)成的語音輸入風(fēng)俗使得長按更吻合用戶風(fēng)俗。

A.點擊：面部與屏幕距離遠(yuǎn)，波形反饋可見，能更好的確認(rèn)設(shè)備是否在收音，且成本較小。大多數(shù)的近場交互都可以使用。同時車載場景分外適用，試想在駕車情況下讓用戶長按輸入語音簡直就是災(zāi)禍。

B.長按：離麥克風(fēng)距離比較近，能帶來更好的收音結(jié)果?？梢宰鳛橐环N輔助的喚醒體例兼容。

（3）語音喚醒：在雙手被占有和遠(yuǎn)距離場景下語音喚醒都是最佳的體例，在設(shè)計語音喚醒時要細(xì)致以下三個方面：喚醒詞的形象設(shè)計、細(xì)致喚醒后的聲音反饋、防止誤觸發(fā)。

A.喚醒詞的形象設(shè)計：喚醒詞的設(shè)計是機(jī)器人格的一部分。在尋常的社會交往中，文雅、深邃的名字，每每會給人留下美好的印象。庸名俗字則給人一種不興奮的討厭生理或排斥感。比如「悄悄」給人「文琪、清秀」的感覺?！柑枪菇o人「甜美」的感覺。

初期的人工智能的能力是有限的，偶然會給出不盡如人意的回答。一個萌萌的有親和力的名字能讓用戶有更高的寬容度。

同時喚醒詞意象要與聲音特色相同等，聽覺情感是特別很是敏感的，想象一下假如一個萌妹子說話的聲音很粗獷，或者一個壯漢聲音很細(xì)你是不是覺得很不恬逸。去定義喚醒詞對應(yīng)的感知意向，在語音合成訓(xùn)練時匹配這種意向。

B.使用反饋音：語音喚醒一樣平常使用在遠(yuǎn)場交互場景，這時候用戶很難能通過視覺確認(rèn)是否喚醒了設(shè)備，就必要給出語音反饋。比如「?！够颉肝以谀亍沟鹊?。

C.防止誤觸發(fā)：在日常交流中我們天天會說許多重復(fù)的字或詞，比如「你、哎、哦」等等，在設(shè)計喚醒詞時要避開這些詞匯。

對話的體驗設(shè)計

喚醒之后的對話環(huán)節(jié)是語音體驗設(shè)計的核心，我們?nèi)绾未蛟炝己玫脑O(shè)計體驗?zāi)?？首先必要了解語音交互類產(chǎn)品對話的基本特點，包括：輪流說話的體例、合作式的對話、關(guān)注語言的蘊(yùn)意及語境、具有線索指導(dǎo)、對話具有可修復(fù)性。

在詳細(xì)對話的編寫上，給大家保舉通用的Grice表達(dá)準(zhǔn)則，可以有用提拔語音對話的結(jié)果。準(zhǔn)則包括以下4方面：

表達(dá)質(zhì)量：陳述的是有用的事物
信息量：不多不少，恰到益處的語言信息含量
關(guān)聯(lián)性：陳述與話題相干的信息
風(fēng)俗性：簡明扼要，直奔主題，避免模糊晦澀的表達(dá)

根據(jù)不同的使用場景對話編寫也有較大差別，重要從以下兩個維度入手：

（1）區(qū)分「義務(wù)式設(shè)計」與「閑聊式設(shè)計」。對話式設(shè)計重要分為兩種場景：義務(wù)式對話和閑聊式對話。

義務(wù)式對話：如理財顧問，大夫，購房助手，用戶使用這類對話的型產(chǎn)品是為了盡快得到答案，而不是向人們「調(diào)戲」siri一樣。這類的產(chǎn)品應(yīng)遵循如下原則：

A. 指導(dǎo)用戶如何輸入

語音是無形沒有邊界的，不要讓用戶進(jìn)來不知道說什么。用戶可能采用各種無法預(yù)知的句子輸入。為了避免發(fā)生錯誤，應(yīng)在界面上指導(dǎo)用戶怎樣輸入或自動開啟一個對話。

B.設(shè)置邊界

不要試圖去做閑聊型「機(jī)器人」，當(dāng)入用戶的輸入你的產(chǎn)品無法理解或與你產(chǎn)品的主義務(wù)無關(guān)時，不要裝聰明，給用戶選項提示用戶他能用的表達(dá)體例。

閑聊式對話：如微軟小冰，度秘等。用戶使用這類對話式產(chǎn)品的目的是「娛樂」，服從不在是第一需求，怎樣讓對話風(fēng)趣避免冷場是新的設(shè)計目標(biāo)：

A. 雙向溝通，自動聯(lián)想

避免對話一向是「one shot」式的一問一答。雙向的溝通才能讓對話變得風(fēng)趣，當(dāng)用戶打開你的產(chǎn)品時根據(jù)氣候，時間等因素做自動的交談，比如當(dāng)用戶深夜打開你的產(chǎn)品時，設(shè)置一段問候的對話會讓你的產(chǎn)品變得富有人文關(guān)懷。

B. 迎合用戶情緒

當(dāng)用戶表達(dá)出悲傷或開心等情緒時，用戶會很期待你的產(chǎn)品具有同理心，用圖像或?qū)υ捙c用戶建立情感連接，將使得對話變得富有人情味，增長產(chǎn)品的粘性。

C .鼓勵輸入

閑聊式對話產(chǎn)品的體驗依靠于對用戶數(shù)據(jù)的收集，你的產(chǎn)品積累的對話數(shù)據(jù)越多，通過深度學(xué)習(xí)就越能給出用戶寫意的反饋。在設(shè)計時通過獎勵機(jī)制和可視化的鼓勵指導(dǎo)用戶來雄厚你的數(shù)據(jù)庫。

（2）「聽覺形象」的體驗設(shè)計

通過「彩、材質(zhì)、外形、版式、動效、字體」塑造視覺形象，用視覺形象反映產(chǎn)品氣質(zhì)、品牌理念是GUI設(shè)計師工作之一。人工智能賦予了機(jī)器擬人化聲音輸出的能力，帶來的語音設(shè)計材料。不同的聲音帶給用戶的感受是不大雷同的，消沉的聲音給人「慎重、沉穩(wěn)」的感覺，尾音語調(diào)向上的聲音給人「愉悅、被尊重」的感覺。

如何用「音色、節(jié)奏、音調(diào)、響度」的語音設(shè)計要素設(shè)計恰如其分的聽覺形象？

下面我結(jié)合項目經(jīng)驗和一些研究與你分享一些流程的方法。

A.從「先設(shè)計后開發(fā)」到「先開發(fā)后設(shè)計」一個全新的實現(xiàn)流程

語音是不可見的，設(shè)計師沒有「語音的PS」，在語音形象的設(shè)計中必須先有「語音基礎(chǔ)形象」設(shè)計師基于語音基礎(chǔ)形象進(jìn)行再設(shè)計。對百度feed讀消息的體驗重新設(shè)計時，先輩行的是不同消息情感特色的定義，基于消息情感收集當(dāng)量的「語料」數(shù)據(jù)，通過深度學(xué)習(xí)來提取每類語料數(shù)據(jù)的聲音特色形成「基礎(chǔ)形象」，在對基礎(chǔ)形象進(jìn)行「語調(diào)、速度、節(jié)奏」的微調(diào)進(jìn)行升級形象設(shè)計。

以上流程可抽象出「聽覺形象」的設(shè)計流程：「定義 – 遴選 – 訓(xùn)練 – 調(diào)整」。

定義：根據(jù)內(nèi)容/產(chǎn)品氣質(zhì)/品牌愿景定義產(chǎn)品的「聽覺形象」，八卦的情感要用「戲謔的」，歷史的聽覺響應(yīng)要有「滄桑感」。

遴選：去語音庫里遴選具有定義的聽覺形象的語音片段。比如假如要產(chǎn)生的聽覺形象是「滄桑感」時，可以遴選一些單田芳先生語音片段。

訓(xùn)練：將大量語音片段交由技術(shù)人員進(jìn)行語音合成訓(xùn)練。

微調(diào)：通過調(diào)整「語調(diào)、速度、節(jié)奏」使之給用戶的感覺更接近于先前定義的「聽覺形象」。

B. 保持「聽覺形象」與「品牌情感」的同等性

在進(jìn)行視覺設(shè)計時設(shè)計師要通過「色彩、外形」等設(shè)計元素支撐品牌情感，對與大型公司會要求他們的每一個產(chǎn)品遵循同等性的設(shè)計規(guī)范。進(jìn)入「聽覺形象」設(shè)計時代，當(dāng)你的產(chǎn)品要使用語音交互時，確保產(chǎn)品的「聽覺形象」與「品牌情感」保持同等，這將能夠強(qiáng)化品牌給用戶的印象。

C. 保持「聽覺形象」與「用戶場景」的同等性

如今回想一下機(jī)場內(nèi)的語音「尊敬的旅客飛往北京的T343航班….」，這種語音形象給用戶「被服務(wù)的、受到尊敬」的感覺，與用戶在機(jī)場的場景相同等。而在醫(yī)院，起碼在中國的醫(yī)院，醫(yī)療資源與患者數(shù)量極不匹配，患者與大夫更像是「求助關(guān)系」而非「服務(wù)關(guān)系」, 使用過于「服務(wù)化」的語音形象反而會給用戶帶來強(qiáng)烈的落差感。

D. 保持「聽覺形象」與「內(nèi)容」同等性

「內(nèi)容」自己是具有形象屬性的，比如二次元的消息假如用粗獷的男生讀出來肯定會很違和。因此在進(jìn)行內(nèi)容消耗型設(shè)計時要充分考量語音所說的內(nèi)容與「聽覺形象」相匹配，避免出現(xiàn)違和感。但是在設(shè)計工具型產(chǎn)品時，不要頻繁替換語音形象，這會分散用戶細(xì)致力使服從降落。

4.行使視覺

語音交互的最大上風(fēng)是更加直覺化，可以大大降低用戶學(xué)習(xí)成本。但是語音輸出的是線性的，因此它無法同時輸出許多內(nèi)容。這是語音最大的劣勢。

2015年在設(shè)計語音管家時有人提出要做個語音點外賣功能。這其實是違反語音場景的，當(dāng)語音輸出到第十道菜時用戶已經(jīng)忘了第一道菜是什么了。所以當(dāng)時在設(shè)計時當(dāng)用戶提議必要當(dāng)量信息交互的義務(wù)時，會通過PUSH指導(dǎo)用戶查看視覺信息。

在設(shè)計時充分行使視覺與聽覺的互補(bǔ)性，聽覺記憶時間短暫的，不要用語音輸出大量信息，尤其輸出的信息是必要用戶記憶時。

四. AI時代的變與不變

AI帶來機(jī)器的認(rèn)知能力和感知能力的提拔，給人機(jī)交互帶來的改變是根本的，傳統(tǒng)的人機(jī)「輸入-反饋」循環(huán)，將漸漸過渡到「保舉-選擇」循環(huán)。人機(jī)交互也將由單向從屬關(guān)系，向雙向訓(xùn)練關(guān)系過渡。這種改變將重寫「設(shè)計思維、方法、流程、規(guī)范」。

然而每個時代都會有屬于它的符號和偶像，對于設(shè)計師來說，賦予產(chǎn)品以靈魂的精神是始終不變的。

「深入了解！什么是對話式交互」

《將來的趨勢！好的 AI 對話體驗應(yīng)該是怎樣的？》
《圖形界面的末路？聊聊將來可能會流行的「對話式交互」》
《超周全！聊天機(jī)器人的界面交互設(shè)計實戰(zhàn)經(jīng)驗總結(jié)》

原文地址：ued.baidu

[教程作者：互聯(lián)網(wǎng)]

關(guān)鍵詞：如何打造優(yōu)秀語音交互體驗這兒總結(jié) 結(jié)了

免責(zé)聲明：本站文章系圖趣網(wǎng)整理發(fā)布，如需轉(zhuǎn)載，請注明出處，素材資料僅供個人學(xué)習(xí)與參考，請勿用于商業(yè)用途！
本文地址：http://pkvc.cn/tutorial/di3934.html

上一篇:屏幕外的交互設(shè)計界面設(shè)計 ≠ 屏幕設(shè)計

下一篇:如何畫好斷線圖標(biāo)？我總結(jié)了這4個規(guī)律

您可能還喜歡

這些是最新的

最熱門的教程

如何打造良好的語音交互體驗？這兒總結(jié)了四個方法