如何打造良好的語音交互體驗?這兒總結(jié)了四個方法
回顧人機(jī)交互發(fā)展是「技術(shù)提高」與「載體創(chuàng)新」交替螺旋促進(jìn)在推動著人獲取信息的服從賡續(xù)提拔,成本賡續(xù)降低。
AlphaGo先后打敗李世石和柯潔,百度發(fā)布主動駕駛體系「阿波羅」這一次由AI引領(lǐng)的技術(shù)提高正在發(fā)生?;诖罅考儍魯?shù)據(jù)的深度學(xué)習(xí)給人工智能帶來的了偉大的提高,這種提高重要表現(xiàn)在三個維度。
- 認(rèn)知能力 – 基于用戶舉動的畫像,將人機(jī)交互從「單向」關(guān)系帶入「雙向關(guān)系」。
- 感知能力 – 由觸摸輸入到以語音輸入、圖像識別為核心的全天然交互。
- 天然語音輸出能力 – 帶來新的”語音“設(shè)計材料。
語音對于體驗設(shè)計師來說是新的設(shè)計材料,它有哪些設(shè)計挑釁?語音設(shè)計有框架可尋嗎?有哪些設(shè)計方法?我們將在下面的文章與你分享。
二.設(shè)計挑釁
從「右邊界」設(shè)計到「無邊界」設(shè)計
當(dāng)我們設(shè)計App界面,交互設(shè)計師會窮舉用戶在固定像素界面內(nèi)所有可能的操作,逐一設(shè)計恰到益處的用戶反饋。但是對于語音交互用戶的輸入是沒有邊界的,用戶可能的輸入將遠(yuǎn)遠(yuǎn)超出你可能的窮舉的范圍。從「有形」的設(shè)計到「無形」的設(shè)計,視覺的設(shè)計規(guī)范在語音設(shè)計過程中將完全失效。
從「進(jìn)場」交互到「多距離空間」交互
語音交互重要分為近場交互(例如:度秘/Siri)和中場交互(車載)、遠(yuǎn)場交互(智能音箱)。
多距離場景的有以下幾個維度的不同:
(1)場景特性:在非近場交互的場景下用戶可能在其他事情上,而非專注在其他義務(wù),這給如何讓用戶最小成本的獲取當(dāng)前體系的狀況帶來挑釁,「我喚醒了設(shè)備嗎」「我們可以說了嗎」 每一個節(jié)點需求都必要多維度的定義。
(2) 輸入體例:常用的輸入體例有實體操作(按鈕/旋鈕等等),觸摸,語音,動作,在近場交互時實體與觸控是第一選擇,而當(dāng)中遠(yuǎn)場交互時語音成為輸入體例的第一選擇。伴隨各種智能音箱、或者Iphone X等采用深度攝像頭應(yīng)用的普及,中遠(yuǎn)場景的動作輸入將漸漸成為緊張的輸入體例之一。
三. 設(shè)計建議
用「語音交互框架」匹配「使用場景」
語音交互帶來人機(jī)交互向更天然的方向提拔,人機(jī)交互更趨近于「人人交互」,怎樣理解語音交互框架,我們可以從人人交互一探討竟。
如今回想你讓別人幫你把水杯拿過來,你與這小我的交互節(jié)點是什么樣子的?
首先你要叫他的名字,假如他聽到了會回答你「干嘛呀」或給你個眼神兒,這時候你知道他在聽你說話,你可以繼承說了「把水杯拿來」。他可能必要想想水杯在哪或者問你,當(dāng)他去拿水杯你會看到他正在舉措。將與人的語音交互節(jié)點提煉出來,進(jìn)行總結(jié)就是語音的交互框架:
如上圖所示語音的交互框架由以下四個節(jié)點構(gòu)成,每個節(jié)點用戶有響應(yīng)需求:
- 喚醒:用戶有得到「是否喚醒語音」反饋的需求
- 輸入:用戶有得到設(shè)備正在「聽說話嗎」的需求(相稱于loading)
- 理解:用戶有得到「在幫我說事情嗎」 的需求
- 回答/舉措:用戶有查看義務(wù)是否完成的需求
語音的交互框架詮釋了語音交互流程,等同于觸屏設(shè)備定義的「點擊屏幕」「雙指Pinch」「搖一搖」。但是僅僅了解交互框架是遠(yuǎn)遠(yuǎn)不夠的,比框架更緊張的是語音交互場景,在不同場景下以上「喚醒、輸入、理解、回答/舉措」四個節(jié)點有不同設(shè)計體例。
舉個例子:在語音交互的第二個節(jié)點 – 輸入中必要用「波形高低」與「語音響度高度」相匹配來給用戶正在凝聽的反饋,在不同場景下波形要采取不同的設(shè)計策略:
車載場景:駕車時用戶的視覺細(xì)致力被路況占有,這時候一方面必要引入「?!沟囊宦曊Z音反饋,另一方面必要設(shè)計采取更強(qiáng)的視覺波形確保一瞥既得。
語音音箱:語音音箱的場景雖然不像駕車場景細(xì)致力被強(qiáng)占有,但是它是沒有屏幕的,這時候一樣平常會采取帶強(qiáng)弱有呼吸感的燈效解決反饋的題目。
「無形」的語音能「附著」在各種設(shè)備上,場景也是千變?nèi)f化的。在設(shè)計時要時刻記住「喚醒-輸入-理解-回答/舉措」的語音交互框架和每個節(jié)點的用戶需求,關(guān)注用戶的使用環(huán)境,和視覺/聽覺細(xì)致力的占有情況,不要局限只用聲音做反饋。
喚醒設(shè)計
喚醒是語音交互的第一步,聽說剛發(fā)布的某國產(chǎn)品牌的AI音箱選了十多個喚醒詞,最后才用了「小愛同窗」,Rokid的喚醒詞「若琪」也經(jīng)過了精心的設(shè)計。這充分說明了喚醒設(shè)計緊張性。
喚醒體例可以是義務(wù)的觸發(fā)動作,比如點擊,按壓,動作,語音,表情。目前主流的喚醒體例有以下3三種 – 實體按鈕、假造按鈕、語音喚醒,每種喚醒體例各有特點,適用于不同場景,下面我們來一一分析一下:
(1) 實體按鈕:好處是能提供觸覺反饋,使用場景有兩種:
A.當(dāng)用戶的視覺通道被占有時。
B.近場交互且設(shè)備沒有屏幕或屏幕處于熄滅狀況時,例如在熄屏狀況下通過長按Home喚醒。
(2)假造按鈕:喚醒體例有兩種操作體例 – 點擊和長按。兩種體例的本質(zhì)差別有三個:與面部距離、操作成本長按大于點擊、微信養(yǎng)成的語音輸入風(fēng)俗使得長按更吻合用戶風(fēng)俗。
A.點擊:面部與屏幕距離遠(yuǎn),波形反饋可見,能更好的確認(rèn)設(shè)備是否在收音,且成本較小。大多數(shù)的近場交互都可以使用。同時車載場景分外適用,試想在駕車情況下讓用戶長按輸入語音簡直就是災(zāi)禍。
B.長按:離麥克風(fēng)距離比較近,能帶來更好的收音結(jié)果??梢宰鳛橐环N輔助的喚醒體例兼容。
(3)語音喚醒:在雙手被占有和遠(yuǎn)距離場景下語音喚醒都是最佳的體例,在設(shè)計語音喚醒時要細(xì)致以下三個方面:喚醒詞的形象設(shè)計、細(xì)致喚醒后的聲音反饋、防止誤觸發(fā)。
A.喚醒詞的形象設(shè)計:喚醒詞的設(shè)計是機(jī)器人格的一部分。在尋常的社會交往中,文雅、深邃的名字,每每會給人留下美好的印象。庸名俗字則給人一種不興奮的討厭生理或排斥感。比如「悄悄」給人「文琪、清秀」的感覺?!柑枪菇o人「甜美」的感覺。
初期的人工智能的能力是有限的,偶然會給出不盡如人意的回答。一個萌萌的有親和力的名字能讓用戶有更高的寬容度。
同時喚醒詞意象要與聲音特色相同等,聽覺情感是特別很是敏感的,想象一下假如一個萌妹子說話的聲音很粗獷,或者一個壯漢聲音很細(xì)你是不是覺得很不恬逸。去定義喚醒詞對應(yīng)的感知意向,在語音合成訓(xùn)練時匹配這種意向。
B.使用反饋音:語音喚醒一樣平常使用在遠(yuǎn)場交互場景,這時候用戶很難能通過視覺確認(rèn)是否喚醒了設(shè)備,就必要給出語音反饋。比如「?!够颉肝以谀亍沟鹊?。
C.防止誤觸發(fā):在日常交流中我們天天會說許多重復(fù)的字或詞,比如「你、哎、哦」等等,在設(shè)計喚醒詞時要避開這些詞匯。
對話的體驗設(shè)計
喚醒之后的對話環(huán)節(jié)是語音體驗設(shè)計的核心,我們?nèi)绾未蛟炝己玫脑O(shè)計體驗?zāi)??首先必要了解語音交互類產(chǎn)品對話的基本特點,包括:輪流說話的體例、合作式的對話、關(guān)注語言的蘊(yùn)意及語境、具有線索指導(dǎo)、對話具有可修復(fù)性。
在詳細(xì)對話的編寫上,給大家保舉通用的Grice表達(dá)準(zhǔn)則,可以有用提拔語音對話的結(jié)果。準(zhǔn)則包括以下4方面:
- 表達(dá)質(zhì)量:陳述的是有用的事物
- 信息量:不多不少,恰到益處的語言信息含量
- 關(guān)聯(lián)性:陳述與話題相干的信息
- 風(fēng)俗性:簡明扼要,直奔主題,避免模糊晦澀的表達(dá)
根據(jù)不同的使用場景對話編寫也有較大差別,重要從以下兩個維度入手:
(1)區(qū)分「義務(wù)式設(shè)計」與「閑聊式設(shè)計」。對話式設(shè)計重要分為兩種場景:義務(wù)式對話和閑聊式對話。
義務(wù)式對話:如理財顧問,大夫,購房助手,用戶使用這類對話的型產(chǎn)品是為了盡快得到答案,而不是向人們「調(diào)戲」siri一樣。這類的產(chǎn)品應(yīng)遵循如下原則:
A. 指導(dǎo)用戶如何輸入
語音是無形沒有邊界的,不要讓用戶進(jìn)來不知道說什么。用戶可能采用各種無法預(yù)知的句子輸入。為了避免發(fā)生錯誤,應(yīng)在界面上指導(dǎo)用戶怎樣輸入或自動開啟一個對話。
B.設(shè)置邊界
不要試圖去做閑聊型「機(jī)器人」,當(dāng)入用戶的輸入你的產(chǎn)品無法理解或與你產(chǎn)品的主義務(wù)無關(guān)時,不要裝聰明,給用戶選項提示用戶他能用的表達(dá)體例。
閑聊式對話:如微軟小冰,度秘等。用戶使用這類對話式產(chǎn)品的目的是「娛樂」,服從不在是第一需求,怎樣讓對話風(fēng)趣避免冷場是新的設(shè)計目標(biāo):
A. 雙向溝通,自動聯(lián)想
避免對話一向是「one shot」式的一問一答。雙向的溝通才能讓對話變得風(fēng)趣,當(dāng)用戶打開你的產(chǎn)品時根據(jù)氣候,時間等因素做自動的交談,比如當(dāng)用戶深夜打開你的產(chǎn)品時,設(shè)置一段問候的對話會讓你的產(chǎn)品變得富有人文關(guān)懷。
B. 迎合用戶情緒
當(dāng)用戶表達(dá)出悲傷或開心等情緒時,用戶會很期待你的產(chǎn)品具有同理心,用圖像或?qū)υ捙c用戶建立情感連接,將使得對話變得富有人情味,增長產(chǎn)品的粘性。
C .鼓勵輸入
閑聊式對話產(chǎn)品的體驗依靠于對用戶數(shù)據(jù)的收集,你的產(chǎn)品積累的對話數(shù)據(jù)越多,通過深度學(xué)習(xí)就越能給出用戶寫意的反饋。在設(shè)計時通過獎勵機(jī)制和可視化的鼓勵指導(dǎo)用戶來雄厚你的數(shù)據(jù)庫。
(2) 「聽覺形象」的體驗設(shè)計
通過「彩、材質(zhì)、外形、版式、動效、字體」塑造視覺形象,用視覺形象反映產(chǎn)品氣質(zhì)、品牌理念是GUI設(shè)計師工作之一。人工智能賦予了機(jī)器擬人化聲音輸出的能力,帶來的語音設(shè)計材料。不同的聲音帶給用戶的感受是不大雷同的,消沉的聲音給人「慎重、沉穩(wěn)」的感覺,尾音語調(diào)向上的聲音給人「愉悅、被尊重」的感覺。
如何用「音色、節(jié)奏、音調(diào)、響度」的語音設(shè)計要素設(shè)計恰如其分的聽覺形象?
下面我結(jié)合項目經(jīng)驗和一些研究與你分享一些流程的方法。
A.從「先設(shè)計后開發(fā)」到「先開發(fā)后設(shè)計」一個全新的實現(xiàn)流程
語音是不可見的,設(shè)計師沒有「語音的PS」 ,在語音形象的設(shè)計中必須先有「語音基礎(chǔ)形象」設(shè)計師基于語音基礎(chǔ)形象進(jìn)行再設(shè)計。對百度feed讀消息的體驗重新設(shè)計時,先輩行的是不同消息情感特色的定義,基于消息情感收集當(dāng)量的「語料」數(shù)據(jù),通過深度學(xué)習(xí)來提取每類語料數(shù)據(jù)的聲音特色形成「基礎(chǔ)形象」,在對基礎(chǔ)形象進(jìn)行「語調(diào)、速度、節(jié)奏」的微調(diào)進(jìn)行升級形象設(shè)計。
以上流程可抽象出「聽覺形象」的設(shè)計流程 :「定義 – 遴選 – 訓(xùn)練 – 調(diào)整」。
定義:根據(jù)內(nèi)容/產(chǎn)品氣質(zhì)/品牌愿景定義產(chǎn)品的「聽覺形象」,八卦的情感要用「戲謔的」,歷史的聽覺響應(yīng)要有「滄桑感」。
遴選:去語音庫里遴選具有定義的聽覺形象的語音片段。比如假如要產(chǎn)生的聽覺形象是「滄桑感」時,可以遴選一些單田芳先生語音片段。
訓(xùn)練:將大量語音片段交由技術(shù)人員進(jìn)行語音合成訓(xùn)練。
微調(diào):通過調(diào)整「語調(diào)、速度、節(jié)奏」使之給用戶的感覺更接近于先前定義的「聽覺形象」。
B. 保持「聽覺形象」與「品牌情感」的同等性
在進(jìn)行視覺設(shè)計時設(shè)計師要通過「色彩、外形」等設(shè)計元素支撐品牌情感,對與大型公司會要求他們的每一個產(chǎn)品遵循同等性的設(shè)計規(guī)范。進(jìn)入「聽覺形象」設(shè)計時代,當(dāng)你的產(chǎn)品要使用語音交互時,確保產(chǎn)品的「聽覺形象」與「品牌情感」保持同等,這將能夠強(qiáng)化品牌給用戶的印象。
C. 保持「聽覺形象」與「用戶場景」的同等性
如今回想一下機(jī)場內(nèi)的語音「尊敬的旅客飛往北京的T343航班….」,這種語音形象給用戶「被服務(wù)的、受到尊敬」的感覺,與用戶在機(jī)場的場景相同等。而在醫(yī)院,起碼在中國的醫(yī)院,醫(yī)療資源與患者數(shù)量極不匹配,患者與大夫更像是「求助關(guān)系」而非「服務(wù)關(guān)系」, 使用過于「服務(wù)化」的語音形象反而會給用戶帶來強(qiáng)烈的落差感。
D. 保持「聽覺形象」與「內(nèi)容」同等性
「內(nèi)容」自己是具有形象屬性的,比如二次元的消息假如用粗獷的男生讀出來肯定會很違和。因此在進(jìn)行內(nèi)容消耗型設(shè)計時要充分考量語音所說的內(nèi)容與「聽覺形象」相匹配,避免出現(xiàn)違和感。但是在設(shè)計工具型產(chǎn)品時,不要頻繁替換語音形象,這會分散用戶細(xì)致力使服從降落。
4.行使視覺
語音交互的最大上風(fēng)是更加直覺化,可以大大降低用戶學(xué)習(xí)成本。但是語音輸出的是線性的,因此它無法同時輸出許多內(nèi)容。這是語音最大的劣勢。
2015年在設(shè)計語音管家時有人提出要做個語音點外賣功能。這其實是違反語音場景的,當(dāng)語音輸出到第十道菜時用戶已經(jīng)忘了第一道菜是什么了。 所以當(dāng)時在設(shè)計時當(dāng)用戶提議必要當(dāng)量信息交互的義務(wù)時,會通過PUSH指導(dǎo)用戶查看視覺信息。
在設(shè)計時充分行使視覺與聽覺的互補(bǔ)性,聽覺記憶時間短暫的,不要用語音輸出大量信息,尤其輸出的信息是必要用戶記憶時。
四. AI時代的變與不變
AI帶來機(jī)器的認(rèn)知能力和感知能力的提拔,給人機(jī)交互帶來的改變是根本的,傳統(tǒng)的人機(jī)「輸入-反饋」循環(huán),將漸漸過渡到「保舉-選擇」循環(huán)。人機(jī)交互也將由單向從屬關(guān)系,向雙向訓(xùn)練關(guān)系過渡。這種改變將重寫「設(shè)計思維、方法、流程、規(guī)范」。
然而每個時代都會有屬于它的符號和偶像,對于設(shè)計師來說,賦予產(chǎn)品以靈魂的精神是始終不變的。
「深入了解!什么是對話式交互」
- 《將來的趨勢!好的 AI 對話體驗應(yīng)該是怎樣的?》
- 《圖形界面的末路?聊聊將來可能會流行的「對話式交互」》
- 《超周全!聊天機(jī)器人的界面交互設(shè)計實戰(zhàn)經(jīng)驗總結(jié)》
原文地址:ued.baidu
本文地址:http://pkvc.cn/tutorial/di3934.html