国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

關于有屏設備的語音交互體驗實驗研究

傳感器技術 ? 來源:未知 ? 作者:工程師郭婷 ? 2018-07-28 12:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

第二屆百度AI開發者大會在北京舉行,百度AI交互設計院在首次舉辦的AI設計分論壇上,分享了《AI時代的人因工程》主題演講,他們認為:在AI時代,全新的設計將會重構我們身邊的工具、生產力、生活甚至心理學。AI時代的人因工程,是關于人的能力、行為、限制的特點,也關于人的社會、文化、心理,是真正以人類為中心的系統工程。他們還將腦電、肌電和眼動等生理測量方法引入了人因工程研究中,將研究方法進行創新迭代,不斷助力百度的AI產品進行“重構”。百度開發者大會剛剛結束,百度AI交互設計院又隨即推出了最新的研究報告《多維對話——走向視聽融合的語音交互新體驗研究》,進一步用扎實的研究彰顯了他們在AI交互設計領域的專業實力。

過去四十年,人與機器的交互方式在不斷進化,幾乎每十年就會有一次重大革新。來到人工智能時代,生活中越來越多的設備開始支持語音交互,語音交互逐漸成為人們傳達意圖和與設備交流的優先選擇(Voice First)。與傳統交互相比,語音交互解放了雙手和雙眼,人們可以低成本與設備互動;而且,語音是多維的,除了言語本身的信息,言語中還蘊含著豐富情感,允許人們與設備進行更充分的互動。

語音交互也有局限性。語音交互是非可視化的,容易增加人們的記憶負擔,設想語音查詢信息的場景,你可能需要集中精力聽,如果不留神就容易錯過一些內容。鑒于此,正如人工智能專家吳恩達提到的,人與機器交流最高效的方式是語言,而機器與人最高效的交流方式是語言加上視覺,即需要在聽覺基礎上融入視覺信息彌補語音交互的不足。從語音向視覺延伸,在語音交互中融入可視化信息,已經是業界探索下一代語音交互范式的重要趨勢。以智能音箱為例,除了無屏音箱以外,市場上開始出現帶屏幕的音箱。

百度人工智能交互設計院本期以有屏智能設備為研究對象,聚焦語音交互反饋和內容輸出環節的體驗。考慮到屏幕尺寸差異可能對反饋和內容輸出體驗的影響,研究選擇了兩種不同屏幕尺寸的設備,分別是智能音箱(7英寸)和智能電視(55英寸)。本期的主要研究問題包括:

1)有屏設備的指令上屏反饋體驗,主要指用戶輸入語音指令后,文本指令上屏的延遲時間以及文本指令在屏幕上呈現的合理時間;

2)有屏設備內容輸出的音量干擾體驗,主要指用戶在特定場景下(如聽音樂/看視頻),插入其它任務后(如查詢百科),不同內容輸出時的音量合理設置。

關于有屏設備的語音交互體驗實驗研究

有屏設備的指令上屏體驗研究

與無屏設備相比,顯示屏的融入使語音交互過程有更豐富的反饋形式。以語音識別階段為例,在無屏設備上,用戶通常無法直接知道輸入指令的識別結果。而有屏設備直接在屏幕上顯示指令的識別結果,用戶可以方便的查看識別結果的正確或錯誤情況,例如上屏后的指令"我要聽周杰倫的青花瓷"。然而,目前很多設備在指令上屏時存在一定程度的延遲現象,本實驗對指令上屏合理的延遲時間和呈現時間進行研究。

1、指令上屏延遲時間實驗

由于市場上的有屏設備多數采用實時上屏方式,即用戶輸入語音指令的同時就開始在屏幕上呈現識別結果,因此,本實驗只研究實時上屏。在實驗中我們使用實時逐字上屏的方式,并以控制首字上屏延遲時間為主要變量(注:首字上屏延遲時間指從用戶開始說到第一個字上屏的時間間隔),我們設置了不同的首字延遲時間,以此獲取用戶對指令上屏速度的滿意度評價(5點量表:1-非常不滿意,2-比較不滿意,3-一般,4-比較滿意,5-非常滿意)。在實驗中,我們分別提供了3種不同長度的指令。

實驗結果表明,首字延遲時間越短,用戶的滿意度越高,不同屏幕尺寸設備的首字延遲時間滿意度略有差異,我們將"4-比較滿意"看做用戶滿意的得分下限,將"3-一般"看做用戶可接受的得分下限,不同設備間用戶滿意和可接受的上屏時間如下:

1)對于有屏音箱,用戶滿意的首字延遲時間下限在500ms左右,可接受的首字延遲時間下限在1500-1600ms左右;

2)對于智能電視,用戶滿意的首字延遲時間下限在600-700ms左右,可接受的首字延遲時間下限在1100-1200ms左右;

結合對市場上其它設備的研究發現,部分設備的首字上屏時間明顯比用戶滿意的時間下限長,少數甚至比可接受的下限還要長。關于指令上屏速度,產品仍有改善和優化的空間,即語音識別ASR(Automatic Speech Recognition)技術除了在不斷提升識別準確率以外,同時也需要關注識別速度指標的提升。

2、指令上屏呈現時間實驗

除了指令上屏時間,我們進一步對指令上屏后合理的呈現時間進行研究,以避免指令呈現時間太短導致用戶無法看清,或者呈現時間太長導致整個交互過程拖沓冗余。在實驗中,我們以文字呈現時間為主要變量(注:文字呈現時間指文本指令最后一個字上屏后到全部指令消失的時間間隔),獲取用戶對不同呈現時間的滿意度評價。由于語音識別涉及語言模型技術,實際的指令上屏并不是逐字的方式,因此,本部分實驗我們也模擬了逐塊上屏的方式,以指令"我想看劉德華2010年以前主演的香港電影"為例,"劉德華"被整體識別后才上屏。在實驗中,我們也分別提供了3種不同長度的指令。

實驗結果表明,存在最優的文字上屏呈現時間,不同屏幕尺寸設備之間,最優的文字上屏呈現時間無顯著差異。不同上屏方式間存在差異,逐字上屏和逐塊上屏的最優呈現時間分別如下:

1)逐字上屏方式下,最優的指令呈現時間為200-500ms的區間;

2)逐塊上屏方式下,最優的指令呈現時間為400-700ms的區間。

關于有屏設備的語音交互體驗實驗研究

由于逐塊上屏方式更接近真實產品的上屏方式,因此建議主要參考400-700ms的呈現時間。需要說明的是,由于實時上屏的方式允許用戶在輸入語音指令過程中就可以查看已經上屏的文字,這與整體識別后上屏的方式明顯不同,因此,如果產品采用的是整體識別后上屏的方式,不建議參考本部分實驗的結論。

有屏設備的音量干擾體驗研究

有屏設備除了使語音交互有更豐富的反饋以外,屏幕的引入也擴展了設備過去不具備的功能,例如視頻內容消費和視頻通訊能力等。同時設備的使用也在經歷從過去單一任務到多個任務的變化,當看視頻時,你可以隨時插入任務查找信息,例如看電視劇《扶搖》時查詢演員楊冪的信息。本部分實驗主要研究用戶插入任務后,前景內容和背景內容間的音量干擾體驗,如當前景內容正在語音播報信息時,背景視頻或音樂的合理音量范圍,以避免過高的背景音對用戶獲取信息產生干擾。

1、音量干擾實驗

在實驗中,用戶被要求分別在看視頻和聽音樂兩種場景下進行信息查詢。我們設置了兩種初始音量(注:初始音量是用戶看視頻/聽音樂的音量):60和65分貝,用戶查詢人物或百科信息后,通過設置不同的背景音量(注:此時前景內容為語音播報信息,背景內容為視頻或音樂),獲取用戶對背景音量的滿意度評價。同時結合實驗后問卷了解用戶對前景和背景信息展示的態度。由于不同設備間音量刻度范圍存在差異,實驗中對有屏音箱和智能電視的背景音量進行了分別設置。

實驗結果發現,無論背景是視頻還是音樂,用戶都不喜歡背景完全靜音(注:下圖中"0"代表背景完全靜音)。針對有屏音箱和智能電視,當初始音量約為60分貝時,背景音量舒適范圍略有差異,具體結果如下:

1)針對有屏音箱,背景視頻音量下降至36-53分貝范圍,背景音樂音量下降至39-56分貝范圍時,用戶主觀感覺較舒適;

關于有屏設備的語音交互體驗實驗研究

2)針對智能電視,背景視頻音量下降至39-53分貝范圍,背景音樂音量下降至36-53分貝范圍時,用戶主觀感覺較舒適。

關于有屏設備的語音交互體驗實驗研究

實驗中我們同時研究了初始音量為65分貝時背景音量的舒適范圍,因實驗結果與上述趨勢基本一致,篇幅所限,暫不一一展開。

此外,結合實驗后的問卷調研結果發現,關于背景的播放狀態,背景為音樂時用戶更傾向繼續播放,而背景為視頻時有屏音箱端傾向視頻暫停的用戶更多。主要是由于有屏音箱端背景視頻被完全覆蓋,因此,用戶認為背景視頻暫停較好,以避免錯過感興趣的視頻內容。

關于有屏設備的語音交互體驗實驗研究

關于有屏設備的語音交互體驗實驗研究

關于前景內容的播放狀態,無論屏幕尺寸差異和背景媒體類型,多數用戶希望能夠對前景信息進行語音播報,而不僅僅是在屏幕上以文字或圖文的形式展示。

關于有屏設備的語音交互體驗實驗研究

本文針對有屏設備的語音交互體驗進行研究,重點探索整合視覺系統后交互反饋和內容輸出環節的體驗問題。對指令上屏的延遲時間和指令呈現時間給出了我們的研究結果和設計建議,以及不同內容輸出時前景和背景的合理音量設置等。

從語音向視覺的延伸,語音交互的邊界和外延仍將不斷變化。語音交互與傳統的交互方式并不是互斥的、非此即彼的關系,未來的人機交互將融入聽覺、視覺、觸覺、味覺、嗅覺等多模態的交互方式。未來的交互范式必然不是這些交互方式的簡單堆砌和羅列,而是在考慮特定場景、人的因素、環境條件等因素后有序的、合理的組合和設計。百度人工智能交互設計院也將會持續的關注多模態交互領域的研究和設計,并不斷輸出我們的研究成果和觀點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39795

    瀏覽量

    301460
  • 智能電視
    +關注

    關注

    9

    文章

    1400

    瀏覽量

    97859
  • 語音交互
    +關注

    關注

    3

    文章

    351

    瀏覽量

    29173
  • 智能音箱
    +關注

    關注

    31

    文章

    1794

    瀏覽量

    80830

原文標題:走向視聽融合的語音交互新體驗研究

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    新品 | Echo Pyramid,智能語音交互底座

    EchoPyramid是一款面向智能語音交互應用的功能底座。專為M5Stack的Atom/AtomS3/AtomS3R系列主控設計,即插即用,快速構建具備高性能音頻交互能力的語音
    的頭像 發表于 03-06 16:51 ?1982次閱讀
    新品 | Echo Pyramid,智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>底座

    四維集成,全面進化:WT2606B驅語音芯片重塑智能門鎖交互新標準

    當“嘀”一聲的單調提示被清晰的屏幕指引與溫馨的語音問候取代,智能門鎖正從一個功能性工具,進化為溫度的家庭交互中樞。深夜歸家,門鎖屏幕伴隨識別成功的動畫輕聲問候;電量不足時,清晰的圖標與語音
    的頭像 發表于 12-15 09:45 ?332次閱讀
    四維集成,全面進化:WT2606B驅<b class='flag-5'>屏</b><b class='flag-5'>語音</b>芯片重塑智能門鎖<b class='flag-5'>交互</b>新標準

    語音識別芯片哪些(語音識別芯片AT680系列)

    在人工智能技術飛速發展的今天,語音識別芯片作為人機交互的重要橋梁,正逐漸成為各類智能設備不可或缺的核心部件。與傳統的語音芯片不同,語音識別芯
    的頭像 發表于 11-14 17:11 ?1378次閱讀

    廣州唯創電子WTN6系列語音芯片:四維控制模式重塑智能設備交互體驗

    在智能化設備普及的今天,靈活高效的控制方式成為產品差異化競爭的關鍵。廣州唯創電子WTN6系列語音芯片以其獨特的四種控制模式,為智能設備提供了前所未有的設計靈活性。隨著物聯網技術的快速發展,語音
    的頭像 發表于 10-09 08:45 ?442次閱讀
    廣州唯創電子WTN6系列<b class='flag-5'>語音</b>芯片:四維控制模式重塑智能<b class='flag-5'>設備</b><b class='flag-5'>交互</b>體驗

    唯創知音AI語音交互芯片與模組介紹

    AI語音交互已經成為智能產品的基礎配置,比如常見的AI玩具、智能家居、帶AI功能的藍牙音響,還有汽車的智能車機和智能穿戴設備等。唯創知音順應市場趨勢推出了WT2606A系列的AI語音
    的頭像 發表于 09-17 15:51 ?753次閱讀
    唯創知音AI<b class='flag-5'>語音</b><b class='flag-5'>交互</b>芯片與模組介紹

    “芯”聲代,智未來—VS680本地語音交互系統 #語音交互 #芯片

    語音交互
    深蕾半導體
    發布于 :2025年09月17日 10:59:30

    WT2606B 驅語音芯片新增藍牙功能:功能集成一體化,產品升級自動化,語音交互無線化,場景應用普適化!

    WT2606B 驅語音芯片新增藍牙功能:功能集成一體化,產品升級自動化,語音交互無線化,場景應用普適化!
    的頭像 發表于 08-14 12:05 ?608次閱讀
    WT2606B 驅<b class='flag-5'>屏</b><b class='flag-5'>語音</b>芯片新增藍牙功能:功能集成一體化,產品升級自動化,<b class='flag-5'>語音</b><b class='flag-5'>交互</b>無線化,場景應用普適化!

    普強智能語音技術重新定義車載交互邊界

    普強憑借自主研發的智能語音技術,為某國內頭部車企提供的語音前處理、喚醒詞、ASR、TTS等技術模塊,構建覆蓋泰語、俄語、韓語、日語等多語種的語音交互解決方案,助力其海外車型實現無障礙人
    的頭像 發表于 07-11 14:00 ?1178次閱讀

    芯資訊|廣州唯創電子WTK6900P語音識別芯片:離線語音交互的革新者

    在智能設備全面普及的浪潮中,語音交互技術正逐步從“云端依賴”向“本地化高效處理”演進。廣州唯創電子推出的WTK6900P語音識別芯片,憑借其本地化離線
    的頭像 發表于 05-22 09:22 ?808次閱讀
    芯資訊|廣州唯創電子WTK6900P<b class='flag-5'>語音</b>識別芯片:離線<b class='flag-5'>語音</b><b class='flag-5'>交互</b>的革新者

    OBOO鷗柏丨AI數字人觸摸查詢觸控人臉識別語音交互一體機上市

    OBOO鷗柏丨AI數字人觸摸查詢觸控人臉識別語音交互一體機上市分析OBOO鷗柏品牌推出的AI數字人觸摸查詢觸控人臉識別語音
    的頭像 發表于 05-21 20:22 ?1257次閱讀
    OBOO鷗柏丨AI數字人觸摸<b class='flag-5'>屏</b>查詢觸控人臉識別<b class='flag-5'>語音</b><b class='flag-5'>交互</b>一體機上市

    智能座艙:車載語音交互測試內容

    隨著汽車智能化的飛速發展,車載語音交互系統已從早期的輔助功能逐漸演變為智能座艙的核心交互方式之一。駕駛者通過語音指令即可輕松完成導航設置、音樂播放、電話撥打,甚至車輛部分功能的控制,這
    的頭像 發表于 04-24 15:29 ?2180次閱讀
    智能座艙:車載<b class='flag-5'>語音</b><b class='flag-5'>交互</b>測試內容

    智能語音交互方案在客服領域的應用

    在當今數字化浪潮中,客服領域正經歷著前所未有的變革,智能語音交互方案憑借其高效、便捷的特性,成為推動這一變革的核心力量。其中,語音識別模型優化私部署方案與語音合成聲音定制方案作為兩大核
    的頭像 發表于 04-11 14:35 ?803次閱讀

    WT3000T8-32N語音合成TTS芯片:小體積、強性能,重塑智能語音交互體驗

    領域帶來顛覆性創新。這款芯片不僅是傳統語音模塊的升級替代者,更是開啟下一代智能設備語音交互的鑰匙。一、四大核心優勢,定義行業新標桿1.軍工級性能:32位處理器賦能
    的頭像 發表于 03-21 09:20 ?1042次閱讀
    WT3000T8-32N<b class='flag-5'>語音</b>合成TTS芯片:小體積、強性能,重塑智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>體驗

    重慶大學:研究用于語音識別和交互的機器學習輔助可穿戴傳感系統

    背景介紹 人體會產生豐富的生物信號,這些信號可以被人體檢測、數字化、分析并與外界設備交互。其中,人類的語音尤其具有豐富的時域、頻域和幅度信息傳輸能力。這種豐富的信息承載能力使聲音成為
    的頭像 發表于 03-14 14:59 ?1680次閱讀
    重慶大學:<b class='flag-5'>研究</b>用于<b class='flag-5'>語音</b>識別和<b class='flag-5'>交互</b>的機器學習輔助可穿戴傳感系統

    WTV380-8S語音芯片:智能清潔設備的“語音助手”,小體積大能量,重塑人機交互體驗

    隨著智能家居的普及,掃地機器人、擦窗機器人、洗地機等清潔設備正從“功能型”向“智能交互型”躍遷。用戶不僅需要高效的清潔能力,更期待直觀的語音提示、多傳感器協同以及穩定可靠的性能。WTV380-8S
    的頭像 發表于 03-14 09:12 ?739次閱讀
    WTV380-8S<b class='flag-5'>語音</b>芯片:智能清潔<b class='flag-5'>設備</b>的“<b class='flag-5'>語音</b>助手”,小體積大能量,重塑人機<b class='flag-5'>交互</b>體驗