每一次技術的革新,都会帶來內容創作的變革:數碼攝影的普及讓視頻製作變得更加輕鬆,大眾通過社交媒體分享生活中的點滴,而移動互聯網和短視頻平台的崛起,則徹底改變了人們講述故事的方式。如今,AI 技術的進步再次掀起視頻創作的新浪潮,讓更多人有機會參與到視頻內容的創作與表達之中。
Vozo 創立於此背景之下,這家初創公司致力於透過 AI 技術,讓每個人都能夠輕鬆地表達自己的創意與故事。Vozo 提供了強大的 AI 視頻創作工具,包括智能剪輯、自動特效和豐富的模板庫,使得用戶無需專業技能也能製作出高質量的視頻內容。無論是短視頻製作者、KOL 還是企業用戶,都可以借助 Vozo 的工具,更加自由地使用視頻進行溝通與傳播,加速內容創作的效率與質量。
01 Google X 早期科學家、連續創業者,過往聚焦在用計算+攝影的方法為用戶呈現更好的視覺效果
ZP:歡迎昌印總,請先向大家介紹一下自己吧!
昌印:大家好,我是 Vozo 的 Founder 兼 CEO 周昌印,朋友們都叫我 CY。我本科在復旦大學管理學院,研究生在復旦大學計算機系,碩士期間在微軟研究院訪學,有幸接觸到當時全球最頂尖的計算機視覺研究與計算機科學家,找到自己的研究方向,計算攝影,即“計算+攝影”,幫用戶獲得更好的圖像或視頻,或者更好的理解圖像或視頻。2007 年微軟研究院的老師推薦我去哥倫比亞大學讀博,博士導師就是計算攝影領域的主要奠基人,美國三院院士。
2011 年博士第 4 年我在英偉達實習的時候,接到斯坦福大學計算攝影大神 Levoy 教授的邀請,希望我和他一起到 Google X 成立一個新的項目組,後來起名叫 Gcam(谷歌相機的意思)。但當時我大約還有一年才能博士畢業,而且原計劃是畢業後在學術圈從事教職。這中間發生了很多故事,我最終接受邀請加入了 Google X,從一個純粹 Researcher 變成 Researcher+Engineer。很感激當時博士導師的積極支持與配合,讓我不僅可以直接去 Google X 全職工作,也讓我 1 年後能完成博士答辯。所以,我沒有經過正常面試就進了 Google X,沒有博士畢業卻拿到了博士待遇,一周工作 4 天,但拿全職薪酬。工位左邊是 Levoy 教授,背靠著另一位著名的 AI 大教授 Sebastian,時常會碰到在周圍晃蕩的 Sergey Brin,發生很多有趣的討論。當時感覺有點魔幻。這段經歷給我很多不走尋常路的啟發。
在 Google X 4 年,逐步轉向偏工業界,參與 Google 眼鏡的項目,
當時 Google 眼鏡最大的问题是 Camera 很小、且 Processor 很弱,導致拍出來的視頻和圖像質量很差,如果基於此做 Vision 的算法,就比較難,
所以需要一整套的技術棧,我們當時把整個 Image Stack 重新定義了一遍,是非常典型的 Engineering 和 Research 的結合,
我們一次性會拍 6-10 張照片,然後再把 6-10 張照片很快地融合在一起,這樣噪音就更低,它的質量會提高一個級別,但是又要做到用戶不知道這件事情,用戶以為自己拍了一張,但他其實拍了 6-10 張,中間會有很多 Vision 的算法、Processing 的算法、以及對 Camera 的控制。後面所有安卓手機廠商都要 Follow 我們 Google 的標準,這個後面變成 Android Camera2 API,是整個安卓底層系統之一。
這件事情有趣的點在於,一個工程的事情可以把一件事情的效率提高十倍、甚至百倍,
但並沒有引入特別大的硬體,我們是通過純軟體的方式來實現的,當時給我非常大的啟發。
2015 年離開 Google 開始創業,做 VR 應用,核心希望解決 Teleportation,即在北京可以去體驗上海的事情,這個事情要解決數據的傳輸、數據的生成、數據的渲染,而且它的數據量比一般的 Video 會大 10 到 100 倍。到後面變成 ToB SaaS,面向運營商如 AT&T、Horizon 等。在技術上有很多突破,但商業上不太成功,受制於上下游的 VR 硬體與內容,市場上並沒有那麼多的 VR 需求,回頭來看有點過於技術 Driven,沒有從真正的用戶需求出發。2021 年回國二次創業,做了 Vozo,我覺得這家公司可能會更均衡一些,包括對商業機會的看重、以及真正從需求出發,我們會非常小心地去驗證需求是真的、還是我們自己想像出來的。
ZP:復盤來看,您認為第一次創業沒有達到預期目標的原因有哪些?
昌印:我們當時是做視頻處理,將 Camera 採集的視頻數據進行處理、生成和流化,並且在觀看端進行解碼、渲染和呈現,提供端到端的體驗。我覺得核心是生態位的問題,當時我們做的事情需要依賴上下游,上游依賴很好的採集設備去幫我們去採集一些 VR 的原數據,我們處理後要給到下游頭顯,又要依賴頭顯的裝機量,所以我們是被卡在中間。以及我們當時有很多 Wishful Thinking,覺得體驗做得這麼棒,一定會有很多公司把上游的 Camera 做好,以及會有很多人去買頭顯,當時還會引用一些很有趣的曲線去預測頭顯的裝機量,但回頭來看這兩件事情(快速增長的 VR 內容與 VR 頭顯裝機量)都沒有發生。
所以不能過於理想化。並不是我們把計算與渲染做好,就可以推動上下游變好的。整個行業發展有自己的一套商業邏輯,一家公司能產生的影響一般非常有限。但是對於創業來說,你又不能等十年上下游就變好了,創業的窗口期也就大概兩年到四年,最多到五年也就了不起了,所以給我的 Lesson 是,不要太超前,最好去做差不多已經成形的市場需求,不能領先市場太多。
ZP:2021 年開啟第二次創業,當時的動力是什麼?
昌印:首先我覺得創業很有意思,以及是我覺得第一次創業可能有一些遺憾,也是希望二次創業可以做得更好,比如沒有從用戶需求出發,所以這次創業一直帶著這個想法在做事,不過創業過程我確實很 Enjoy。2021 年回國到杭州,當時把杭州 MCN 的一些老大都聊了一遍,就發現他們有各種各樣的需求,但大部分都是圍繞 Image、Video 這個方向。和做 VR 時候形成鮮明對比,做 VR 時你把技術和產品都已經做好了,到處求著他們來用,但是而短視頻與直播領域有大量需求,但是沒有合適的技術與產品滿足他們,所以就想我們可以在這裡做一些事情,於是開始第二次創業。
02 從用戶需求出發,Vozo 上線即爆火,全球 600 萬用戶,通過 AI 能夠讓每個人比較輕鬆地去做視頻表達
ZP:當時看到了什麼普遍的需求?
昌印:當時看到幾類需求,一類是短視頻的製作,另一類是直播。當時直播看上去需求更強,比如有幾個有名的 MCN 公司要建很多直播中心,一個樓裡有幾百個直播間,每個直播間裡會有三台索尼攝像機,每個攝像機背後又都要放一個攝影師,後面還有個導播,所有人都戴著耳麥,有一號機位、二號機位,地上一堆線,這個場景聽起來就很難 Scale。我就在想可以做攝像機自動化,只要有一個人去控制它就可以了,大概做了半年的時間,做了一種很有趣的直播機,包括一個廣角相機和兩個鏡頭,背後有控制算法,當一個鏡頭 Zoom In 在你的面部的時候,第二個鏡頭可以 Zoom In 到你的手部做準備,會自動按照理解切鏡頭,應該什麼時候給手部、什麼時候給面部。但後面發現光有需求還不行,還要考慮商業的可行性,頭部主播會有很多人服務,本身也享受眾星捧月的感覺,長尾主播用手機就可以滿足需求,所以只剩下中腰部主播,不夠多也不夠穩定,後來就 Cancel 掉了這個方向。
不過我們還是收穫了很多認知,因為有直播機,我們可以跟 MCN 機構有很多非常緊密的交流,當你把直播機放到他的直播間裡面去聊需求,就會了解他平常還會做什麼,對整個短視頻行業的了解也更深,所以後面我們決定不做硬體,單獨把軟體拿出來,就形成了後面的產品,一直做到現在。
ZP:轉型後公司的定位是什麼?
昌印:在直播機之後,我們看到很多短視頻製作的需求,我們那時候就意識到和之前不太一樣,之前做視頻的人都是專業的剪輯師,到了短視頻這個時代之後,就會發現很多的 KOL、KOC、電商賣家,他們其實都不是視頻製作專業的人,所以他們的視頻技能其實跟我們都差不多,就是正常人的視頻技能,所以他們在製作短視頻的時候就會有很多問題。我們當時就在想如何讓普通人能自然地透過短視頻講故事、表達情緒、介紹商品或其他內容。我認為這件事很有趣,而且能影響到很多人。於是決定不再單純的追求技術酷炫,而是要做一個所有人都能輕鬆使用的工具,並做到最好。
我們當時做了大量的用戶調研,過程中發現了許多有趣的需求,其中一個就是“記不住台詞”這個問題,雖然看起來很小,但對非專業人士來說,除非是專業的主播或播音員,幾乎所有人都難以記住台詞,這就需要拍攝一遍又一遍,是很崩潰的,因為每一遍都需要情感充沛,好不容易情感對了台詞沒記住又要重來一遍。我們當時基於語音識別模型做了一個手機提詞器,能根據語速滾動,我們用了一个月就做完了。可最後用戶用了之後卻不太滿意,覺得很多地方不行,比如用戶有口音、環境噪音干擾、提詞器卡住了等等。
ZP:主要是遇到了哪些問題,我們是如何應對的?
昌印:主要還是技術問題,比如用戶普通話不標準、噪聲很大、回聲很大等,會導致語音識別出現問題,因為用戶不是專業的,就發現用戶以為的沒有噪音和你以為的沒有噪音是兩回事兒,然後就需要去解決這些問題,收集數據、做模型,以及模型做得夠小、延遲夠短降低到 100 毫秒以下。這是其中一個例子,還有很多各種各樣的普通人可能遇到的問題,開始做的時候是有點點在試驗,但是在優化之後,用戶的滿意度、付費率、續費率都很好,我們就圍繞提詞器做了更多的功能,包括加字幕、自動剪輯,也就有越來越多人用,我們目前全球有 600 多萬用戶,付費率、續費率和用戶的反饋都特別好,無論是國內和國外我們的用戶評分都超級高,我們經常會把用戶的評論貼給我們團隊看。
以及除了技術問題,還要思考要做什麼,因為剛剛提到這個人群他要的東西很多,做哪個、不做哪個、哪個先做、哪個後做、UI 要怎麼做,這其實也是在慢慢演化到後面的產品。我們在國內有私域群,大概有 5 萬人,他們的反饋可以讓我們慢慢衍生出更多可能性,比如用戶講錯話可以改他說過的話,甚至可以把聲音變得更好聽,讓自己形象變得更好,將故事 A 改成故事 B,將中文變成英文,慢慢延伸,最後發現最好的方式是有個 SaaS,因為使用頻率比較高的用戶也喜歡用 SaaS,所以去年立項開始做 SaaS,到今年 7 月份 Vozo 正式上線,這款產品承載了我們過去幾年對這個人群的需求理解。
ZP:Vozo 這款產品的定位是什麼,在為用戶提供什麼樣的價值?
昌印:Vozo 所做的事情是希望透過 AI 能夠讓每個人比較輕鬆地去做視頻的表達,我們內部把它叫做視頻自由,希望每個人都可以很方便地用視頻去講故事。
我們選擇做或不做什麼時,有三個核心標準。第一:需求要真實,市場有規模;第二:和之前的主流產品要有大不同,比如 Adobe Premiere 或 Capcut;第三:要在我們的主方向上,即給非視頻專業者使用的表達工具。標準清楚了之後,我們就明確方向、開發迭代,一直到今年 7 月份才上線。
ZP:Vozo 主要面向的使用者是誰?
昌印:剛開始是一些 SMB、Prosumer,現在發現更多是一些企業,我們的產品定位是 Vozo Rewrite,改寫有很多不同的場景,比如你有一個廣告想改成不同風格、不同的開頭結尾;或者你原來有一個市場宣傳片,原來是比較正規專業的講述,你想把它改成更歡快的;或者你發現自己公司的 Logo 在最後一秒鐘改了一下;或者我說了中文想把它改成英文。但是我們上線之後發現兩類是最多的,一個是講解視頻,一個是翻譯。我們現在體驗做得還不錯,至少我們自己覺得過了及格線,我們就會聚焦在幾個場景,所以畫像更多會是企業端的 Marketing、Ads 廣告部門,以及一些做內容和做教育培訓的公司,這個行業不是一個傳統的 Vertical,他是各個行業類似的部門都有類似的需求。
ZP:為什麼會在今年推出 Vozo,背後的驅動力是什麼?
昌印:我覺得這三年市場的變化還挺大的,Video Translate 或者說 Video Rewrite 這件事情早一年在技術上都沒法做得很好。然後我們一定角度上走了一些彎路,我們做提詞器拿到了很多數據,就做了很多訓練,剛好 2022 年底 Dall E 出來,我們做 Diffusion 和視頻生成覺得非常 Exciting,就又走了一個岔路,把原來用戶需求的問題拋到腦後了(笑)。但也是那一年的原因,我們對生成模型、語音生成、口型合成,陰差陽錯形成了一些能力。2022 年其實我們做過類似的產品,但是做完之後內部評估不能達到用戶期望,過了一年我們又回到主線的時候,現在的生成式 AI 又可以解決原來的問題,雖然兩條線岔路出去,然後又回到原來的問題路徑上,還挺有趣的,
技術的突破我覺得是挺全面的,Video Translate 是很綜合的一件事情,第一是語音識別在過去兩年被革命了一遍,現在的方案比之前要好非常多;第二是翻譯,大語言模型就很重要,之前翻譯就不太聰明,需要人去校準,這時候剛好大語言模型已經把這件事情解決了,再加上一些我們自己做 Finetune,整體就可以實現比較好的效果;第三是語音克隆和語音發聲,這個其實是比較難的,現在行業裡面我們、11 Labs 和幾個大廠都在做這個事情,在情感真實度方面也差不多是過去一年才有很大的突破;第四是口型,我們 2022 年就發過 Paper,但是離真正變成產品差距還是挺遠的,又經過大概半年到一年慢慢變成一個產品化的項目。所以從語音識別、聲音克隆、TTS、生成口型動作、到生成面部動作,一系列問題,在大約半年到一年的時間裡就發生了很大的突破,還蠻神奇的。
ZP:伴隨技術的持續發展,我們還會如何拓展產品功能,產品迭代的主脈絡是什麼?
昌印:這是需要技術和產品去對接的,一方面要去預測技術樹真正達到產品化的時機,中間你需要評估自己的研發能力和行業推進速度,這需要很強的一線研發能力;另一方面要考慮現有的產品的需求,比如我們中間也會想在翻譯語句的時候需不需要把人臉也翻譯了,把人臉也變成一個印度人的樣子,那麼這個需求到底真不真實、有多少比例的用戶會為此付費,我們要判斷這個事情,再比如視頻前三秒我可以生成不同的畫面,但是對於畫面用戶的需求到底是什麼,是從一個 Library 裡生成一個特效還是怎麼樣,我們雖然感覺是有什麼東西需要做,但是到底是什麼還是需要和客戶聊。用戶需求加上前面的技術預判,判斷它們能夠 Overlap 之後才會去做產品的開發,所以後面的路徑就是這兩件事情在不停地碰撞。
ZP:評估用戶需求的真實性一直是很難的事情,實操上我們會做哪些事去盡可能地貼近用戶的真實需求嗎?
昌印:這是類似 PMF 的探索過程,在矽谷那邊有非常多系統化的理論。其實有一本書我很推薦叫《The Right It》,這本書非常棒。我覺得最重要的一件事情是不要有 Ego,不要覺得自己想的特別重要;其次就是要對這個行業足夠了解,比如你要知道做 Marketing 的人是怎麼做的、他的 KPI 是什麼、他平時的工作是什麼,所以你要對 Video Production 這行業非常熟悉;最後很多時候還是依靠主觀判斷,另外有一些技巧性的事情,像這些書上都有,比如怎麼做小規模測試、怎麼做訪談,這些都是非常技巧性的東西。
ZP:產品上線後,有哪些超預期或不及預期的地方嗎?
昌印:還蠻意外的,7 月 20 日上線以後我們也沒有去做推廣,但是很多用戶都在用我們的產品,到現在我們也不知道很多用戶是怎麼知道我們的。超預期的是大部分用戶對我們的產品還是比較滿意的,比如我們翻譯得比較快、又比較準,所以好像到目前為止 Vozo 是現在市面上視頻翻譯大家滿意度比較高的一個產品,這是一個有趣的意外收穫,我們原來沒有想到他們會拿我們 Rewrite 去做翻譯,Vozo 可以用 Prompt 去改寫視頻,我原來預想的 Prompt 是 “Rewrite to something ...”,但很多用戶直接說是 Translate to Something,希望通過我們的產品迭代會有越來越多的用戶能用到我們的產品,目前每個月用戶用我們的產品(Vozo APP+SaaS)能生產出來 200-300 萬條完整優質的視頻,我覺得這是非常了不起的事情,雖然我們的留存數據不方便公開,但是我們的留存非常好。
ZP:作為 CEO,您覺得未來 1-2 年最重要的三件事是什麼?
昌印:第一是我希望能吸引一些更有趣優秀的小夥伴進來;第二是希望我能確保產品和商業的方向是正確的,不要走錯路,不要有 Ego,還是要跟隨市場產品應該演化的方向發展;第三是確保我們公司現金流或者營收的增長要足夠快。當然這三件事也有因果關係,第一件事情做好了第二件就會做好,第二件做好了第三件就會做好。
03 技術快速驅動下 Video Creation 賽道仍處於早期,各細分市場有機會誕生多家比 Adobe 體驗好 100 倍的工具軟體
ZP:在過去 2 年,您看到了這個行業哪些主要的趨勢和變化?
昌印:我覺得最大的變化當然是技術的演進,讓原來一些無法得到提升的體驗得到了提升,因此就會產生很多機會。參照 Adobe 來說,你會發現你有很多 Feature 可以做一個非常不一樣的、體驗感更好的產品,Video Creation 的各種場景基本都可以重做一遍,可以做出完爆 Adobe 的平台。
比如有人是做 Comics 風格的 Video,就是那種動漫類的電影,之前可能是通過 Adobe 先繪畫再剪輯,但是圍繞最終的需求,漫畫家或出版商需要做一個動漫類視頻,你可以做出完全不一樣的軟體系統,讓動漫的生產效率非常高。另外比如廣告視頻、PPT 視頻,都可以做出很不一樣的東西。可以把所有視頻品類都拿出來去想像、假設。
ZP:您剛才聊到技術發展非常快,從競爭的角度您怎麼看待目前行業的發展階段?
昌印:我個人覺得挺早期的,現在真正的市場競爭還談不上,看現在關於 Video Production 的行研報告,類似是 100B 左右的市場,比如你雇人去做視頻、買軟件去做視頻,而且這個 100B 我覺得是非常小的,整個視頻創作的場景非常多,所以這個 100B 是我覺得被嚴重低估的,將來會比 100B 多 10-100 倍,未來 3-5 年,會有很多像我們這樣的人、學生,以及各行各業的人都在用視頻去講故事,市場規模會比原來大很多。但現在行業基本都還是在用 Adobe PR、Capcut,無論你做翻譯還是做廣告,這幾個軟件都是萬能的,它們確實可以做任何事情,但每件事情做起來又都特別困難,效果不好。比如,我算一個半專業的視頻製作者,但如果我有兩個星期沒用 PR,我就不知道要怎麼用了......現在是一個變革時代,未來會有很多不同細分場景,接下來 3-5 年可能會湧現出很多不一樣的視頻工具去服務每一個場景,體驗會比原來好 10-100 倍,市場也會大 10-100 倍。
我覺得未來不是這樣子,在視頻表達裡每個場景都是一個比較大的市場,比如翻譯、數字人、廣告等等。現在是一個比較大的變革時代,未來會有很多不同細分場景,接下來 3-5 年可能會湧現出很多不一樣的視頻工具去服務每一個場景,體驗會比原來好 100 倍,市場也會更大。我覺得競爭還談不上,大家先去搶藍海市場,還沒到紅海市場。
ZP:在 Video Creation 這個賽道,您覺得長期的競爭格局會怎麼樣?
昌印:其實這個很難講,細分之後會有很多種可能的形式,比如數字生成和翻譯是分別獨立的賽道,還是合起來變成一個賽道?將來是一家公司有一個能把所有視頻場景都囊括的產品矩陣,還是一個場景分別有一兩家公司?但是我現在的觀察是,不同類型產品可能很難變成一個產品,因為不同產品的用戶體驗差別很大,整個產品服務的底層邏輯也不太一樣。所以我會賭未來會有不同的產品在不同的賽道,只是說這些產品是由同一家公司提供的還是不同公司提供的可能會是一個問題。在現在這個時候,比較重要的是關注未來兩到三年誰發展得比較快。
ZP:目前 AI 的滲透率怎麼樣?
昌印:差不多是零,非常小。我們做提詞器或者 AI 加字幕這樣的事情算是非常基礎的功能了,你可能會覺得這些基礎 AI 功能應該已經很普及了,但實際上,在視頻製作領域,大多數沒有聽說過 AI 提詞器,也不知道 AI 可以幫助添加各種動態字幕,也不知道可以通過剪字幕來剪視頻。
ZP:目前滲透率還比較低的原因是什麼?
昌印:我覺得是因為像樣的產品沒有幾個,以我們的翻譯為例,基本到去年下半年左右技術才相對能達到及格線,最多大概就六七十分左右。去年 Heygen 的爆火可能算是一個比較大的推進,但是像這樣的事情可能還需要非常多次,我覺得普通人還是非常“頑固”的,千萬不要高估 AI 技術的影響力,它需要很長時間去發展。
ZP:未來 3 年,您對 AI 技術進步的期待是什麼?哪些技術變化可能會對視頻編輯領域產生重大影響?
昌印:我覺得可以分兩部分,一邊是 Research 研究,一邊是 Engineering 工程。基於現有的 Research,Engineer 這邊還能做很多優化,尤其是一些非 Framework 的優化,這塊其實還有蠻大的提升空間,可能三五年內我們都可以持續改進,希望能領先其他公司一到兩年。
未來三年我認為 AI 領域可能會有一些底層技術的突破。不過,這些突破可能不會由我們團隊主導,而是像 OpenAI 或者 Google 這樣的公司。目前,多模態系統的設計還存在一些明顯的不足和問題,因此我希望在兩到三年後,這些領域能夠取得重大進展。我們現在做的 Engineering 這塊,希望在未來兩三年不會遇到基礎研究的“天花板”,可以繼續往前推進。
ZP:最後還有幾個關於您的小問題,10 年前對自己的期待是什麼,目前達成了嗎?站在今天,希望 10 年之後的自己成為什麼樣的人?
昌印:十年前我在 Google X 做了一个挺有意思的項目,當時想的就是能讓人變成某種“超人”。比如,可以看到看不見的東西,或者當別人問你問題,你不知道答案,但谷歌眼鏡能告訴你。這相當於通過技術讓人擁有“超能力”。不過,顯然沒有幹成,或者說可能在產品上做到了,但是沒有變成大家都用的產品。
現在繼續創業,我還是希望能做一些技術或者產品的創新。拓展人的能力、突破人的邊界。比如,原來你不會用視頻講故事,現在你會了;原來一件事要講很久,現在一分鐘就能講清楚。我覺得還是在不斷探索人的能力邊界。
ZP:您平時有哪些興趣愛好?
昌印:比較喜歡體育運動,羽毛球、輪滑、滑雪等。
ZP:作為一個創業者,您通常透過哪些渠道來持續學習?
昌印:會有兩個吧,第一个是要接觸一些比你厲害的人,無論是以前公司裡的還是創業過程中的人,另外一個是 ChatGPT,你可以和它聊很多問題(笑)
Z Potentials 將繼續提供更多關於人工智慧、機器人、全球化等領域的創業者訪談。我們誠邀對未來充滿憧憬的您加入我們的社群,與我們共同分享、學習、成長。