一、技術(shù)背景與發(fā)展趨勢(shì)
在當(dāng)前的XR(虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)和混合現(xiàn)實(shí))應(yīng)用中,物理形式的手柄控制器仍作為一種基礎(chǔ)的交互方式被廣泛使用。然而,物理手柄在高臨場(chǎng)感的沉浸式XR應(yīng)用場(chǎng)景下,需要用戶進(jìn)行適應(yīng)性學(xué)習(xí),其存在操作復(fù)雜度高、成本高等先天缺陷。
為增加X(jué)R交互的流暢性及沉浸感,香港光云科技(HKSC)于近期推出一項(xiàng)凝聚其多年技術(shù)積累的創(chuàng)新性XR交互解決方案——TrueToF? Neural Gesture。它基于Time of Flight(ToF)傳感器信號(hào)和深度學(xué)習(xí)來(lái)解析用戶的精細(xì)手部動(dòng)作,能夠在無(wú)需手持外設(shè)下實(shí)現(xiàn)精準(zhǔn)手勢(shì)控制。
該方案充分發(fā)揮信號(hào)的優(yōu)勢(shì),具有高精度、低延遲等諸多技術(shù)優(yōu)勢(shì),為XR應(yīng)用提供一種更自然、沉浸的交互體驗(yàn),同時(shí)結(jié)合了香港光云科技(HKSC)最新的 3D語(yǔ)義理解技術(shù),可以準(zhǔn)確識(shí)別用戶手勢(shì)信息所表達(dá)的行為意圖,為各類(lèi)應(yīng)用場(chǎng)景提供豐富的用戶動(dòng)作屬性標(biāo)簽。例如,在教育領(lǐng)域,學(xué)生可以通過(guò)手勢(shì)直觀地操控虛擬實(shí)驗(yàn)裝置;在娛樂(lè)領(lǐng)域,游戲玩家能夠更自然地與虛擬角色互動(dòng);在設(shè)計(jì)領(lǐng)域,專(zhuān)業(yè)人士可以輕松地編輯、調(diào)整3D模型等等。相較于傳統(tǒng)XR設(shè)備的手柄控制器, TrueToF? Neural Gesture能夠?yàn)楦嘤脩魩?lái)創(chuàng)新的XR體驗(yàn),使用戶能夠更加輕松地探索和享受虛擬世界,無(wú)需手持的的物理外設(shè),同時(shí)降低設(shè)備成本。
“Training data is Technology” OpenAI首席科學(xué)家及聯(lián)合創(chuàng)始人Ilye Sutskever闡明了精準(zhǔn)的訓(xùn)練數(shù)據(jù)在大模型訓(xùn)練中的重要性。然而在3D空間對(duì)手部關(guān)節(jié)進(jìn)行精準(zhǔn)跟蹤,必然需要大量的3D信號(hào)數(shù)據(jù)及其信號(hào)空間真值標(biāo)注。HKSC構(gòu)建了專(zhuān)業(yè)3D數(shù)據(jù)庫(kù)—TrueToF? 3D 手勢(shì)基礎(chǔ)Dataset,包含高質(zhì)量的ToF 3D 信號(hào)的RAW數(shù)據(jù)以及高精度的3D標(biāo)注數(shù)據(jù)。其中,3D手勢(shì)超過(guò)10,000種,可供訓(xùn)練的案例超過(guò)100,000種,據(jù)此其開(kāi)發(fā)了高精度3D手勢(shì)識(shí)別方法。與傳統(tǒng)數(shù)據(jù)集相比,TrueToF?手勢(shì)訓(xùn)練庫(kù)中的數(shù)據(jù)具有精準(zhǔn)的3D空間信息,尤其是深度Z軸上的真值數(shù)據(jù)。TrueToF? 3D Dataset的建立,可以為AI學(xué)習(xí)提供更加準(zhǔn)確、可靠的數(shù)據(jù)標(biāo)注,為3D手勢(shì)識(shí)別技術(shù)的發(fā)展提供有力的支撐。
二、TrueToF? Neural Gesture
TrueToF? Neural Gesture是一種基于TrueToF? Neural IP底層成像及3D語(yǔ)義技術(shù)的高精度3D手勢(shì)識(shí)別方案。它夠在三維物理空間中實(shí)現(xiàn)用戶手部姿態(tài)的高精度追蹤,增強(qiáng)現(xiàn)實(shí)及虛擬現(xiàn)實(shí)下的用戶交互體驗(yàn)。與傳統(tǒng)手勢(shì)識(shí)別技術(shù)及行業(yè)內(nèi)主流方案相比,TrueToF? Neural Gesture具有以下技術(shù)優(yōu)勢(shì):
· 高響應(yīng):基于信號(hào)的直接處理
· 高精度:支持雙手21個(gè)關(guān)節(jié)點(diǎn)的<1mm精度跟蹤
· 3D準(zhǔn)度:精準(zhǔn)測(cè)量傳感器與手部各關(guān)鍵點(diǎn)之間的3D距離
· 角度精度:可擴(kuò)大手勢(shì)角度精度范圍2倍以上,并提升角度分辨率至0.5°
· 穩(wěn)定性:在正常光照和低光環(huán)境下,手掌檢測(cè)的穩(wěn)定性更好
· 可靠性:在戶外環(huán)境和低光環(huán)境下檢測(cè)及跟蹤穩(wěn)定,可適應(yīng)不同應(yīng)用場(chǎng)景
TrueToF? Neural Gesture在性能方面表現(xiàn)出色,與業(yè)界公認(rèn)的Mediapipe等手勢(shì)識(shí)別方案的關(guān)鍵性能指標(biāo)上對(duì)比如下:
TrueToF? Neural Gesture現(xiàn)已支持多種手勢(shì)控制:
1. Gesture Pointer:該手勢(shì)類(lèi)似傳統(tǒng)的激光指針?lè)绞?,允許用戶用任一手指向并操控虛擬物體。通過(guò)TrueToF?技術(shù)捕捉手部動(dòng)作,用戶可以輕松地執(zhí)行這一操作。
2. Controller Pointer:該手勢(shì)允許用戶用雙手以虛擬方式體驗(yàn)傳統(tǒng)物理手柄控制器的操作。TrueToF?技術(shù)可以識(shí)別用戶的雙手動(dòng)作,并將其轉(zhuǎn)化為虛擬世界中的控制信號(hào)。
3. Poke Pointer:該手勢(shì)允許用戶用任一手指(缺省為食指)“戳”虛擬物體,進(jìn)行精確的選擇和操作。TrueToF?技術(shù)能準(zhǔn)確捕捉這類(lèi)手勢(shì),實(shí)現(xiàn)細(xì)致的交互。
4. Grab Pointer:該手勢(shì)允許用戶能夠用單手抓取和移動(dòng)虛擬物體,模擬真實(shí)世界中的抓取行為。TrueToF?技術(shù)捕獲手部動(dòng)作,并實(shí)現(xiàn)自然地抓取操作。
通過(guò)上述交互式手勢(shì)響應(yīng),TrueToF? Neural Gesture為用戶提供了豐富、自然的XR交互體驗(yàn),將虛擬世界的操作與現(xiàn)實(shí)生活中的行為深度融合。同時(shí),該團(tuán)隊(duì)也在不斷擴(kuò)充新的手勢(shì)定義以及自定義手勢(shì)的接口,以便用戶能以更多豐富且自然個(gè)性的方式,與虛擬世界中的物體進(jìn)行沉浸式交互。
三、TrueToF? Neural Gesture的特點(diǎn)
TrueToF? Neural Gesture能夠?yàn)橛脩魩?lái)一種自由、高精度、低延時(shí)的交互體驗(yàn),源于其技術(shù)的多方面優(yōu)勢(shì):
1. 無(wú)束縛:TrueToF? Neural Gesture為AR設(shè)備提供物理手柄替代方案,用戶可通過(guò)自然手勢(shì)控制數(shù)字環(huán)境,提高便捷性和實(shí)用性。
2. 低功耗:基于Qualcomm平臺(tái),千次AI推理功耗僅為1.53 mWh,實(shí)現(xiàn)高性能手勢(shì)識(shí)別的同時(shí),也可有效延長(zhǎng)消費(fèi)電子產(chǎn)品的使用時(shí)間。
3. 高精度:基于AI技術(shù)重構(gòu)的ToF成像流程,空間定位誤差<1mm,保證XYZ三軸<1mm精確度,可為終端應(yīng)用提供準(zhǔn)確交互數(shù)據(jù)支撐。
4. 3D可度量:TrueToF? Neural Gesture AI模型基于3D數(shù)據(jù)庫(kù)訓(xùn)練,實(shí)現(xiàn)手部關(guān)節(jié)XYZ三軸0.5°旋轉(zhuǎn)精度度量,適應(yīng)第一視角應(yīng)用場(chǎng)景,可克服傳感觀測(cè)視角約束。
5. 低延時(shí):采用Hexagon DSP優(yōu)化的<12ms的AI推理模型,保障實(shí)時(shí)交互需求,可應(yīng)對(duì)高速動(dòng)作和復(fù)雜場(chǎng)景。
四、TrueToF? Neural Gesture Benchmark
4.1 暗光測(cè)試:
暗光測(cè)試是在較暗環(huán)境中對(duì)手勢(shì)識(shí)別技術(shù)的性能進(jìn)行評(píng)估。傳統(tǒng)的RGB手勢(shì)識(shí)別方案的性能在這種環(huán)境下往往會(huì)受到較大影響。得益于優(yōu)秀的TrueToF? Neural IP信號(hào)成像能力,TrueToF? Neural Gesture技術(shù)在暗光環(huán)境下表現(xiàn)出較高的穩(wěn)定性,對(duì)各類(lèi)復(fù)雜室內(nèi)光線條件不敏感,這不僅有助于提高手勢(shì)識(shí)別精度,還可增強(qiáng)對(duì)光線變化環(huán)境下使用的魯棒性。
4.2 室外評(píng)測(cè):
室外場(chǎng)景的光線條件更加復(fù)雜多變,包括強(qiáng)光、陰影等多種不可控因素。TrueToF? Neural Gesture技術(shù)在室外評(píng)測(cè)中同樣表現(xiàn)出較高的穩(wěn)定性和魯棒性,能夠保證戶外環(huán)境下的高精度的手勢(shì)識(shí)別需求。
通過(guò)暗光測(cè)試與室外評(píng)測(cè)可以看出,TrueToF? Neural Gesture在不同光照條件下均表現(xiàn)出優(yōu)越性能,表明其在各種非限定光照條件的應(yīng)用場(chǎng)景中能夠提供魯棒、高效的手勢(shì)識(shí)別,可為用戶帶來(lái)優(yōu)質(zhì)、穩(wěn)定且流暢的交互體驗(yàn)。
五、應(yīng)用場(chǎng)景與未來(lái)展望
下一步,TrueToF? Neural Gesture技術(shù)將不斷優(yōu)化和創(chuàng)新迭代,努力提升手勢(shì)估計(jì)與識(shí)別的適配性及穩(wěn)定性,同時(shí)引入更多AI算法不斷提高手部關(guān)節(jié)識(shí)別的精度和語(yǔ)義識(shí)別。HKSC相信3D語(yǔ)義等技術(shù)創(chuàng)新將持續(xù)為XR、Metaverse、AIGC、Autonomous driving等更多場(chǎng)景提供基礎(chǔ)應(yīng)用支撐,TrueToF? Neural Gesture技術(shù)也將在更廣泛的數(shù)字信息領(lǐng)域發(fā)揮潛力,為用戶帶來(lái)更加智能、便捷的生活體驗(yàn)。
關(guān)于香港光云科技(HKSC)
香港光云科技以“用光連接智能世界”為公司愿景,其創(chuàng)新技術(shù)TrueToF?曾獲得“高通2021 AI創(chuàng)新應(yīng)用大賽”第一名。作為專(zhuān)業(yè)的ToF Neural IP供應(yīng)商,現(xiàn)已被全球眾多ToF芯片公司認(rèn)證為專(zhuān)業(yè)合作伙伴。
HKSC致力于提供基于ToF Neural IP的授權(quán)與導(dǎo)入等系列服務(wù),加速消費(fèi)級(jí)3D傳感產(chǎn)品開(kāi)發(fā),讓終端鏈能以更加快捷簡(jiǎn)便方式接入AIGC應(yīng)用。
聯(lián)系客服