這聽起來像是一個結(jié)合了科技、時尚和社交話題的有趣故事!我們可以從幾個方面來解讀這個現(xiàn)象:
1. "產(chǎn)品創(chuàng)新與市場需求:"
“AI眼鏡”本身就是一個前沿概念,自帶科技光環(huán)。
將其定位為“直男程序員脫單神器”,精準地切入了特定人群(程序員)的特定需求(社交、形象、效率)和痛點(可能不善言辭、社交圈子窄、形象刻板等)。
“秒變”暗示產(chǎn)品可能具備快速改變外觀、提升自信或提供社交輔助的功能(比如實時翻譯、搭訕建議、形象優(yōu)化等)。
2. "營銷策略的成功:"
這個標題本身就極具吸引力和話題性,利用了“AI”、“眼鏡”、“直男”、“程序員”、“脫單”、“搶購”等強關(guān)鍵詞,迅速引發(fā)關(guān)注和討論。
將產(chǎn)品與解決“脫單”這一強烈愿望掛鉤,滿足了目標用戶的深層需求,營銷效果直接。
“首次亮相被搶購一空”制造了稀缺感和緊迫感,進一步刺激了購買欲望。
3. "CEO的核心理念:"
CEO的發(fā)言——“好產(chǎn)品要么能幫用戶賺錢,要么能解決實際痛點”——是非常經(jīng)典的商業(yè)邏輯,也是許多成功產(chǎn)品的共同點。
"幫用戶賺錢:" 對于程序員來說,可能指
相關(guān)內(nèi)容:
嘉賓|段然,拂曦科技 CEO
AI 眼鏡作為融合人工智能與可穿戴技術(shù)的下一代交互終端,正經(jīng)歷從技術(shù)突破到產(chǎn)業(yè)生態(tài)重構(gòu)的關(guān)鍵階段。2025 年,行業(yè)呈現(xiàn)技術(shù)多模態(tài)化、應(yīng)用場景多元化、產(chǎn)業(yè)鏈協(xié)同深化三大趨勢:多模態(tài)大模型賦能實現(xiàn)自然交互與主動服務(wù)能力,成熟供應(yīng)鏈和市場新需求雙輪驅(qū)動場景落地。
但硬件重量、續(xù)航等性能瓶頸,以及對多模態(tài)模型的端云協(xié)同計算、主動感知下的數(shù)據(jù)處理等核心問題仍待解決。未來,隨著端云協(xié)同計算、AI 存算一體芯片和底層系統(tǒng)生態(tài)體系的成熟,AI 眼鏡將向泛智能終端演進,成為 PC、手機之后另一個可能突破十億用戶的消費產(chǎn)品。
而在國內(nèi) AI 眼鏡市場,一位 90 后技術(shù)人創(chuàng)辦的企業(yè)——拂曦科技正在被越來越多人熟知。
作為拂曦科技創(chuàng)始人,段然是一位資深 XR 與 AI 行業(yè)從業(yè)者,連續(xù)創(chuàng)業(yè)者,曾帶領(lǐng)團隊開發(fā)過多款年收入過千萬的相關(guān)產(chǎn)品,累計獲得數(shù)家戰(zhàn)投、風投的投資。目前所創(chuàng)辦的拂曦科技,目前是 AI 眼鏡領(lǐng)域的頭部供應(yīng)商,已服務(wù)多家上市公司客戶,并積極布局與 Meta、華為的合作推動 AI 眼鏡行業(yè)進一步發(fā)展?;仡櫠稳坏膭?chuàng)業(yè)歷程,每一步都與技術(shù)變革緊密相連。
最初在人工智能與文旅行業(yè)的結(jié)合中,他嘗到了技術(shù)賦能傳統(tǒng)行業(yè)的甜頭,在云計算與智慧城市領(lǐng)域,他更是憑借出色的成績獲科技部直屬平臺高度認可。但挑戰(zhàn)也隨即而來——疫情的沖擊讓他意識到行業(yè)的不確定性,也讓他更加堅定地尋找更具潛力的賽道。當 AI 技術(shù)與 AI 眼鏡的融合逐漸展現(xiàn)出巨大可能性時,段然果斷帶領(lǐng)團隊涉足擴展現(xiàn)實領(lǐng)域,完成融資、服務(wù)眾多知名大客戶,在一次次實踐中積累經(jīng)驗,最終選擇向消費端市場發(fā)力,打造屬于自己的 AI 眼鏡品牌。
本次 AICon 深圳大會前夕,我們采訪到了段然,聽他分享了在 AI 眼鏡領(lǐng)域創(chuàng)業(yè)經(jīng)歷、感悟和技術(shù)實踐。他將在 8 月 22 日 -8 月 23 日 AICon 深圳站發(fā)表主題為《AI 眼鏡在線下社交場景中的多模態(tài)智能感知與主動交互》的演講。
以下為訪談實錄:
兩次創(chuàng)業(yè)經(jīng)歷都與 AI 相關(guān)
InfoQ:我看到您的簡歷中提到,您是一位連續(xù)創(chuàng)業(yè)者,方便聊一聊您過去的一些創(chuàng)業(yè)經(jīng)歷嗎?曾帶領(lǐng)團隊開發(fā)過多款年收入過千萬的產(chǎn)品,是指現(xiàn)在做的拂曦 XR 眼鏡產(chǎn)品嗎?
段然:我此前有過兩次創(chuàng)業(yè)經(jīng)歷。最初是從事人工智能與文旅行業(yè)的結(jié)合,當時市場環(huán)境較好,產(chǎn)品收入可觀。但后來因疫情沖擊,文旅行業(yè)整體受挫,我便轉(zhuǎn)向云計算與智慧城市領(lǐng)域。在這一領(lǐng)域,我們?nèi)〉昧瞬诲e的成績,還獲得了科技部直屬平臺在該領(lǐng)域的第一名。然而,后續(xù)因一些原因,我開始涉足擴展現(xiàn)實(XR)領(lǐng)域,即虛擬現(xiàn)實(VR)與增強現(xiàn)實(AR)眼鏡。在此領(lǐng)域,我們完成了一輪融資,并服務(wù)了眾多知名大客戶,例如麥肯錫、字節(jié)、歌爾以及深圳市科技館等,打造了一系列地標性項目。起初,我們主要面向企業(yè)端(B 端)客戶,但隨著業(yè)務(wù)發(fā)展,我們意識到需要打造自己的品牌,于是轉(zhuǎn)向消費端(C 端)市場,選擇以 AI 眼鏡作為主要賽道。
InfoQ:從您的介紹來看,您最初是面向 B 端客戶,現(xiàn)在則轉(zhuǎn)向 C 端市場,對嗎?
段然:是的。在國內(nèi),B 端市場競爭激烈,且發(fā)展空間有限。趁著年輕,我們希望能做一些更具前景的事情。
InfoQ:那您在做 B 端業(yè)務(wù)時,也是從事與 AI 眼鏡相關(guān)的工作嗎?
段然:我們當時主要提供的是與 AI 眼鏡相關(guān)的服務(wù)。
InfoQ:在 B 端市場中,AI 眼鏡是如何被應(yīng)用的?比如 AI 眼鏡在具體場景中是如何發(fā)揮作用的?
段然:以我們服務(wù)麥肯錫的一個案例為例,我們曾為一家世界 500 強保險公司提供服務(wù)。當時,這家保險公司在香港舉辦金融科技展會,計劃推出新的健康險產(chǎn)品。傳統(tǒng)上,保險公司會通過銷售人員向客戶介紹保險產(chǎn)品的優(yōu)勢,但這次我們借助 AI 眼鏡技術(shù),將該保險公司的一位著名球星代言人“植入”到應(yīng)用內(nèi)容中。我們通過技術(shù)手段精準復(fù)刻了這位球星的姿態(tài)、動作和行為邏輯。當摩根大通、高盛、渣打銀行等金融機構(gòu)的高管們戴上眼鏡后,他們可以在球星的引導(dǎo)下,體驗健康險所包含的基礎(chǔ)福利和 VIP 特權(quán)等。同時,我們還通過引導(dǎo)用戶進行舒緩肩頸的動作或冥想等方式,讓用戶感受健康帶來的好處。這種體驗方式比傳統(tǒng)的保險政策解讀更具可視化效果和參與感,用戶也更愿意購買。這是一次金融科技領(lǐng)域的 AI 創(chuàng)新應(yīng)用。
押注 AI 眼鏡,
是踩在了風口上
InfoQ:您最初是如何關(guān)注到 AI 眼鏡這一賽道的?是哪些技術(shù)突破或市場空白讓您決定投身其中,甚至可能走上創(chuàng)業(yè)道路的?
段然:坦誠地說,大家都希望趕上風口,借助趨勢的力量來獲得更多資源和機會。我們分析了多個領(lǐng)域,比如具身智能和大模型基座,但我們既沒有相關(guān)經(jīng)驗,也沒有足夠的實力去涉足。然而,在眼鏡領(lǐng)域,我們有近四年的優(yōu)質(zhì)案例積累,團隊成員也大多來自大數(shù)據(jù)研究院或?qū)嶒炇?,對大模型的微調(diào)和訓(xùn)練有一定的基礎(chǔ)。同時,AI 眼鏡賽道當下很火,且未來前景廣闊。從市場層面來看,AI 眼鏡或 VR/AI 眼鏡被稱為下一代可穿戴移動計算平臺,從傳統(tǒng)電腦到手機,再到眼鏡終端,這一邏輯具有很大的想象空間。無論是 Meta 的改名,還是 Robin 眼鏡的爆發(fā),亦或是小米投身 AI 眼鏡市場,各大廠的邏輯都是一致的,只是市場爆發(fā)點尚未明確。從技術(shù)突破來看,目前主要得益于大模型底層能力的突破。
InfoQ:創(chuàng)業(yè)中遇到的最大挑戰(zhàn)是什么?比如技術(shù)攻堅、供應(yīng)鏈磨合或市場教育等方面,您是如何克服的?
段然:我覺得最大的挑戰(zhàn)在于硬件與軟件的結(jié)合。硬件本身就很復(fù)雜,再加上軟件,復(fù)雜度會呈倍數(shù)增長。以 AI 眼鏡為例,僅音頻眼鏡就涉及麥克風、喇叭、鏡框、電路板布局設(shè)計等諸多因素。喇叭有圓形、方形之分,麥克風有高中低端之別,音頻芯片也有多種選擇。如何選擇最適合自身產(chǎn)品體驗的方案,這是一個非常復(fù)雜的問題。
在產(chǎn)品設(shè)計上,我們面臨交互方式和外形設(shè)計的抉擇。比如,用戶何時需要調(diào)用 AI 模型,以及如何調(diào)用,眼鏡的外形是更貼合日常佩戴的眼鏡以突出隱蔽性,還是像小米一樣采用電質(zhì)變色、電鍍層等設(shè)計以凸顯科技時尚感,這些問題都沒有成熟的答案。此外,與手機市場不同,眼鏡市場尚未成熟,缺乏清晰的發(fā)展方向。比如,Robin 眼鏡的出貨量有限,且主要面向歐美市場,中國玩家如何針對中國客戶或國外客戶進行獨特設(shè)計,并實現(xiàn)千萬臺的銷售目標,這也是一個核心問題。不過,國內(nèi)成熟的供應(yīng)鏈為我們提供了便利,深圳及其周邊地區(qū)有許多相關(guān)展會和工廠,這為我們提供了優(yōu)勢。
在技術(shù)攻堅方面,主要挑戰(zhàn)在于如何對大模型進行微調(diào)訓(xùn)練,構(gòu)建推理引擎,實現(xiàn)快速流式推理,讓用戶在需要時能夠快速獲得答案。同時,由于人類閱讀速度遠高于聽力速度,如何在短時間內(nèi)為用戶提供有用信息也是一個難題。我們采用混合專家模型(MOE),結(jié)合多種模型,如 GPT-5、Claude、國內(nèi)的 MiniMax 等,以提供更好的用戶體驗。在市場教育方面,我們主要通過視頻拍攝和流量平臺進行宣傳。由于產(chǎn)品小眾,大多數(shù)用戶沒有體驗過,因此我們需要通過場景演繹來打開用戶認知市場。例如,我們的一款戀愛眼鏡可以作為用戶的實時個人助手,在約會場景中提供實時提醒。通過視頻展示這種場景中的“作弊”能力,我們可以更好地進行市場教育。
錨定社交場景,
一亮相就被搶空
InfoQ:您這款產(chǎn)品目前主要錨定的是社交領(lǐng)域,尤其是戀愛場景,對嗎?
段然:是的,我們的產(chǎn)品主要面向社交領(lǐng)域,第一款產(chǎn)品是針對年輕男性設(shè)計的戀愛眼鏡,幫助他們提升社交能力。我們計劃通過小紅書等平臺進行推廣,引發(fā)爭議,從而快速完成前期的市場教育。
InfoQ:這款產(chǎn)品聽起來很有趣,我們也很期待。那它現(xiàn)在已經(jīng)可以使用了嗎?
段然:我們的原型機已經(jīng)完成,并在 7 月底的華為 HDC 開發(fā)者大會上進行了展示,受到了與會者的歡迎。甚至有來自中東、北非和亞太地區(qū)的海外客戶購買了我們?nèi)康恼故緲悠贰?/p>
InfoQ:當時為什么會設(shè)定這樣一個場景呢?把第一款產(chǎn)品作為主打產(chǎn)品推向市場,您是怎么考慮的?
段然:這主要是從個人經(jīng)歷出發(fā)。我是一名大齡單身男程序員,這本身就是一個有趣的賣點——單身但尚未禿頭的男程序員,而且實驗室里有 18 位羅漢,我這個月參加了好朋友的婚禮,他從本科開始戀愛,一直到博士畢業(yè)才結(jié)婚。這讓我想到,很多男生因為是獨生子女,更傾向于打游戲、和同性朋友相處,而不是主動去了解情感類知識。
他們遇到情感問題時,通常不是去和朋友討論“我哪里做錯了”,而是和好哥們一起吃燒烤、喝啤酒、大哭一場,然后下個月就忘了。盡管如此,大多數(shù)男生還是渴望找到伴侶,只是他們不知道如何去做。相比之下,女生在這方面的知識更豐富,因為她們會討論、會聊天。那我們?nèi)绾螏椭猩玫卦诟星殛P(guān)系中快速推進,贏得心儀女生的青睞呢?這需要技巧。我采訪過一些“海王”朋友后,總結(jié)了一些經(jīng)驗。另一方面,我也不想花時間去上情感課,但如果能通過一款產(chǎn)品把這些知識變成“外掛”,幫助用戶在現(xiàn)實生活中加分,那就方便多了。我希望能在十分鐘內(nèi)讓用戶獲得相當于一個月情感課程的能力,而且價格還低很多。
InfoQ:那這些數(shù)據(jù)是從哪里來的呢?比如在相親過程中,那些話題的答案是怎么來的?這些數(shù)據(jù)是如何提供給眼鏡的?
段然:第一,我們通過一些公開授權(quán)的數(shù)據(jù)集對模型進行強化學習,而不是簡單地用固定的答案去映射問題。比如“你是否喜歡貓”,雖然 60% 的女生可能喜歡貓,但還有 30% 不喜歡,剩下 10% 可能不確定。我們不能用一個簡單的問題和答案來解決,而是通過強化學習讓模型知道在某個場景下哪些答案是合適的。第二,我們通過規(guī)則來約束。這些規(guī)則不是傳統(tǒng)工程師的規(guī)則,而是結(jié)合強化學習和深度學習的方式。比如,當女生說“不知道吃什么”時,你不要直接給她一個答案,而是結(jié)合她之前的照片或經(jīng)歷(比如她曾在日料店拍照或去過泰國旅游),給她提供幾種選擇,比如日料、泰餐或韓餐。這樣她會覺得你很貼心,至少有一個選項是她喜歡的,而不是讓她自己去美團上看。還有,如果女生說東西不好吃,但其實是她帶你去吃的,你不能附和說不好吃,而應(yīng)該說“其實還挺好吃的”。這些都需要我們結(jié)合模型訓(xùn)練和工程化方法來實現(xiàn)。
InfoQ:我覺得讓大模型挺考驗大模型的能力聽起來挺有意思的。
段然:是的,情感大模型確實很復(fù)雜。我們在國內(nèi)做得還算不錯,但真正應(yīng)用到場景中,還需要和早期種子用戶不斷實驗、試錯。
InfoQ:情感大模型確實很難,因為它涉及很多主觀因素,如果不根據(jù)場景,答案可能會出錯?,F(xiàn)在實際應(yīng)用起來效果怎樣?
段然:對,當女生說“今晚要吃減肥餐”時,她可能并不是真的想吃減肥餐,而是希望你能陪她一起吃,并在吃的時候給她一些情緒支持,甚至幫她找一些好吃的減肥餐。這就需要對語義進行精細化處理。我們需要有足夠的案例,通過互聯(lián)網(wǎng)上的樣本量來給用戶畫像,再根據(jù)用戶背景和實時聊天內(nèi)容進行場景分析。雖然目前還有一些誤差,但我們已經(jīng)比普通男性用戶的好 30% 到 50% 了。我們的產(chǎn)品英文名叫 EYELONE,意思是“孤單的眼睛”,我們希望通過它幫助每一個男生,無論是程序員、工程師還是外賣小哥,都能擁有“海王”的能力,同時保持一顆真誠的心。
InfoQ:很多人認為 AI 眼鏡仍處于 “概念大于落地” 的階段,您堅持深耕的初心是什么?希望通過技術(shù)或產(chǎn)品解決哪些實際問題?
段然:根據(jù)我們參與的華為 AI 硬件調(diào)研報告,內(nèi)部數(shù)據(jù)顯示,到 2030 年,AI 眼鏡的銷量將達到 9600 萬臺,甚至過億。2025 年到 2030 年是快速增長的爆發(fā)期,我認為 2027 年會是一個關(guān)鍵節(jié)點,屆時銷量有望達到千萬臺甚至 3000 萬臺的量級。
InfoQ:您的資料中提到 AI 眼鏡行業(yè)正進入 “百團大戰(zhàn)” 趨勢,能否具體分析當前市場上的主要玩家(如 Meta、國內(nèi)廠商等)的競爭焦點?不同玩家的技術(shù)路線或產(chǎn)品定位有哪些差異?
段然:這個問題比較復(fù)雜,因為各家都在定義自己的市場方向。以 Meta 的 Robin 眼鏡為例,它主打 AI 與時尚的結(jié)合,最初以拍攝 Vlog 為核心功能,加上品牌效應(yīng),讓用戶成為隨時隨地的個人創(chuàng)作者,后續(xù)再加入 AI 問答功能。國內(nèi)的 Rokid 則主打 AR 顯示功能,通過單光機衍射波導(dǎo)方案,以提供 AI 提示、AI 翻譯、AI 會議等功能。還有 Even Realities 等品牌,主要針對 CEO 或商務(wù)人士,提供會議和顯示場景的輕量化解決方案。雷鳥、界環(huán)等品牌也在不同垂直領(lǐng)域深耕。但總體來看,目前市場上的產(chǎn)品主要集中在 AI 會議、AI 顯示、AI 翻譯、健康運動和拍攝等場景,尚未深入到用戶的實際生活場景中。
AI 眼鏡核心競爭力在于場景
InfoQ:對比 PC、手機端大模型應(yīng)用的爆發(fā),AI 眼鏡側(cè)的 AI 應(yīng)用為何遲遲未形成規(guī)模?突破點可能出現(xiàn)在技術(shù)、場景還是生態(tài)層面?
段然:目前 AI 眼鏡的銷量還不夠多。手機的銷量是幾億臺甚至十幾億臺,而 AI 眼鏡的總銷量才三五百萬臺。沒有基本盤,就談不上獨立自主性 VR 眼鏡的出貨量稍多一些,但也只有兩三百萬臺。我認為突破點一定在場景方面。技術(shù)再進步,生態(tài)再完善,如果沒有使用場景,一切都是空談。我們常說“場景定義算法”或“場景定義技術(shù)”。以 AI 或大模型為例,早期的 AI 四小龍(商湯、曠視、依圖、云從)主要面向 B 端和定制化需求,而 OpenAI 通過大模型開啟了整個生態(tài)。國內(nèi) AI 發(fā)展雖然在技術(shù)上可能有差距,但并不算晚。關(guān)鍵還是要找到結(jié)合技術(shù)與場景的突破點,形成真正的市場需求。
InfoQ:您認為未來三年可能出現(xiàn) “爆款 AI 眼鏡側(cè) AI 應(yīng)用”嗎,基于您的觀察,這類應(yīng)用可能誕生在哪些場景?文旅、教育還是其他領(lǐng)域?其核心競爭力會體現(xiàn)在哪里?
段然:我認為核心競爭力在于場景??赡艿谋顖鼍鞍ㄉ缃粦賽垲I(lǐng)域,以及教育領(lǐng)域。文旅領(lǐng)域可能不太適合,因為用戶群體過于泛化。教育場景可能是一個很好的方向,特別是針對 15 歲以下的孩子,AI 眼鏡可以作為一種家長放心的設(shè)備,幫助孩子培養(yǎng) AI 使用能力。醫(yī)療健康領(lǐng)域也有潛力,比如 AI 能否成為隨身的家庭健康醫(yī)生。核心競爭力在于 AI 眼鏡與手機相比的優(yōu)勢:在手機不方便出現(xiàn)的場景中,AI 眼鏡更具便攜性和隱蔽性。比如在社交對話中,使用手機拍攝或錄像是不合理的,但眼鏡則非常合適。再比如會議場景,翻譯眼鏡的概念也很有前景。
InfoQ:您在資料中還提到,前國內(nèi) AI 眼鏡相關(guān)崗位較少,但您判斷 “會的人更少”,這種供需關(guān)系背后反映出行業(yè)處于什么發(fā)展階段?未來一年市場需求可能會有哪些具體變化?
段然:目前 AI 眼鏡市場處于非常初級的階段。雖然有“百鏡大戰(zhàn)”的說法,但真正掌握核心技術(shù)的廠商很少。鏡腿部分的音頻芯片市場主要被杰理和藍訊占據(jù),拍攝功能則主要有高通、恒玄等幾家廠商。背后真正提供技術(shù)能力的廠商只有六七家,200 家代工廠的背后只有少數(shù)幾家真正的出貨商。隨著 AI 模型能力的提升和出貨量的增加,未來對嵌入式硬件開發(fā)、云邊端計算架構(gòu)、軟件后端系統(tǒng)架構(gòu)以及大模型訓(xùn)練等崗位的需求會急劇上升。
目前掌握這些技能的人才較少,可能會出現(xiàn)供不應(yīng)求的局面。就像現(xiàn)在 AI、深度學習或強化學習領(lǐng)域的學生,畢業(yè)年薪最低三四十萬,高的可達七八十萬,面臨人才短缺的困境。未來一到兩年,市場對這些崗位的需求會急劇上升,而行業(yè)出貨量可能會增長 200% 到 300%。
InfoQ:從硬件架構(gòu)來看,AI 眼鏡的光學現(xiàn)實模組需要實現(xiàn) “增強現(xiàn)實疊加 + 物理環(huán)境深度理解”,這種深度理解具體依賴哪些技術(shù)?比如 SLAM 算法優(yōu)化、多傳感器融合還是特定硬件模組的加持?
段然:關(guān)于光學顯示模組的具體依賴問題,我可能不太了解硬件方面,但從深度理解的角度來看,主要有兩個方面。一方面是空間錨點相關(guān)的內(nèi)容,即對物理環(huán)境的深度理解。這包括兩個層面:一是深度層次,比如 AI 眼鏡可以感知一張桌子離你大概十厘米還是二十厘米,一把椅子離你是一米還是兩米。過去,這通常是通過深度相機(兩個攝像頭拍攝圖像)來實現(xiàn)空間位置定位的?,F(xiàn)在,單目攝像頭也可以通過單目 SLAM 技術(shù)來實現(xiàn)深度理解。另一方面是對物體的語義理解,這主要依賴算法優(yōu)化和傳感器融合,而不需要特定的硬件模組,因為現(xiàn)在大多是基于攝像頭和圖像處理來實現(xiàn)的。
InfoQ:您提到芯片與交互設(shè)備是硬件組成的關(guān)鍵部分,當前 AI 眼鏡在芯片選型上更傾向于專用 XR 芯片還是通用計算芯片?端側(cè)算力與功耗的平衡是如何實現(xiàn)的?
段然:在芯片與交互設(shè)備方面,比如 XR 芯片、AI 眼鏡的芯片選型,需要根據(jù)具體功能來選擇。如果是音頻功能,可能會用到藍訊或杰理的芯片;如果是拍攝功能,可能會用到恒玄的芯片;如果是高端 AR 功能,可能會用到高通的 AR 芯片,比如 Rokid 所采用的型號。目前還沒有特別針對 AI 眼鏡的專用芯片,大多是傳統(tǒng)計算芯片或通信芯片的組合,因為產(chǎn)品量還不夠大,還沒有達到芯片廠商愿意為此單獨開發(fā)芯片的程度。AI 眼鏡在端側(cè)計算能力有限,基本上是將收集到的信息傳到手機或云端進行處理,主要依靠云端算力。至于散熱問題,如果在眼鏡上進行大量計算,散熱是個大問題,甚至可能會燙傷臉部。因此,有些產(chǎn)品會采用外置計算盒子來處理,類似于移動計算終端,或者將計算放在云端或手機端進行。
InfoQ:多模態(tài)能力是 AI 眼鏡的核心競爭力,在您的實踐中,攝像頭捕捉的第一視角圖像、音頻信號與物理環(huán)境數(shù)據(jù)是如何實現(xiàn)實時融合處理的?是否面臨數(shù)據(jù)延遲或精度不足的問題?
段然:這其實是混合現(xiàn)實(MR)的概念。多模態(tài)在 AI 眼鏡上的應(yīng)用是指對多種模態(tài)信息(如文字、圖像、音頻)的綜合理解。例如,我們和華為討論過一個案例:如果用戶在戴眼鏡時不小心把鑰匙落在家里,眼鏡可以收集相關(guān)數(shù)據(jù)。半個月后,用戶問眼鏡鑰匙在哪里,眼鏡可以通過圖像識別和語音識別,結(jié)合跨模態(tài)檢索技術(shù),告訴用戶鑰匙在臥室的抽屜里。這個過程是在云端進行的,涉及數(shù)據(jù)庫存儲和跨模態(tài)檢索。
如果談到實時融合,比如在混合現(xiàn)實中將虛擬物體放置在現(xiàn)實環(huán)境中(如《精靈寶可夢 GO》中的小精靈藏在床底下),這就比較復(fù)雜了。這需要攝像頭捕捉圖像信息,然后通過虛擬圖像檢索和處理,在計算機中構(gòu)建虛擬環(huán)境,并通過空間錨點定位將虛擬物體放置在現(xiàn)實環(huán)境中。這種混合現(xiàn)實的延遲大概在幾百毫秒,精度方面可能會有不足。例如,Vision Pro 的誤差大概在幾厘米,而 PICO 和 Meta 的誤差可能在十幾厘米左右。
InfoQ:在我們的產(chǎn)品實際應(yīng)用中,這樣的延遲是否會對交流產(chǎn)生影響?還是可以忽略不計?
段然:我們將藍牙通信的延遲降低到了 50 毫秒以內(nèi),主要的延遲在于 AI 模型的推理。我們通過流式輸出的方式調(diào)用模型的消息函數(shù),可以在一秒鐘內(nèi)給出回復(fù)。在現(xiàn)實生活中交流時,停頓一兩秒鐘其實是相對無感的。我們針對的場景不是游戲場景,因為游戲場景對延遲的要求非常高。如果延遲達到 200 毫秒,游戲體驗就會很差,畫面會卡頓,操作也會不流暢。但在日常交流中,這種延遲是可以接受的。
InfoQ:那關(guān)于數(shù)據(jù)集的問題,您之前提到過第一視角行為數(shù)據(jù)集的采集、標注和訓(xùn)練流程。對于 AI 眼鏡來說,數(shù)據(jù)集是不是一個很重要的組件?
段然:坦誠地說,行為數(shù)據(jù)集主要是針對具身智能的研究,但目前具身智能領(lǐng)域資金有限,這類數(shù)據(jù)集對 AI 眼鏡的幫助并不大。數(shù)據(jù)集對于 AI 眼鏡來說,更多是一個附加的增值點,而不是核心組件。
未來趨勢
InfoQ:對于想進入該領(lǐng)域的技術(shù)人(比如學生或從業(yè)者),您建議他們優(yōu)先掌握哪些技術(shù)棧?從 “一年后找工作” 的角度,除了硬件知識,是否需要深耕多模態(tài)大模型或具身智能算法?
段然:我覺得沒有必要主攻所有方面。如果你懂嵌入式硬件開發(fā),并且在 AI 硬件公司實習過三個月,那你在這個行業(yè)里就已經(jīng)比較吃香了。或者如果你擅長模型訓(xùn)練,掌握一些基礎(chǔ)的提示詞工程,甚至進行一些模型訓(xùn)練或微調(diào),那就足夠了。多模態(tài)和具身智能并不是必須掌握的。因為崗位會分得很細,比如硬件開發(fā)、前后端開發(fā)、模型訓(xùn)練等。如果你真的想深入這個行業(yè),那需要成為一個非常綜合性的全棧工程師,既懂硬件開發(fā),又懂產(chǎn)品設(shè)計,還懂模型訓(xùn)練,這樣的人才非常少。對于新入行的人來說,只要掌握一部分能力就足夠了。
InfoQ:回顧在 AI 眼鏡領(lǐng)域的深耕經(jīng)歷,有哪些技術(shù)突破或產(chǎn)品落地瞬間讓您覺得 “一切投入都值得”?這些經(jīng)歷給您帶來了哪些關(guān)于技術(shù)創(chuàng)新與行業(yè)發(fā)展的感悟?
段然:我可以做一個開放式的。當我們的產(chǎn)品賣到 500 萬臺的時候,我再來這個問題。目前還沒有一款 AI 眼鏡的銷量達到 500 萬臺。如果非要我推測的話,關(guān)鍵在于解決用戶的真正痛點:要么幫用戶賺錢,要么提供情緒價值。簡單來說,就是經(jīng)濟利益和情感需求。這是用戶最底層的需求邏輯。如果你能幫助用戶解決這些問題,他們就愿意買單。
今日好文推薦
GPT-5被批過度炒作、性能落后,OpenAI聯(lián)創(chuàng)揭秘其中原因:我們把它關(guān)在 “象牙塔”,和現(xiàn)實世界接觸不夠CEO 剛離職,GitHub 就癱了?!程序員“樂土”沒了,4年CEO自曝在微軟受限干不下去,被開發(fā)者罵蠢喊冤一年成爆款,狂斬 49.1k Star、200 萬下載:Cline 不是開源 Cursor,卻更勝一籌?!用戶集體大逃亡!Cursor“自殺式政策”致口碑崩塌:“補貼”換來的王座,正被反噬撕碎