Unpopular opinions on AI

Cheng En Li

9 min readJun 26, 2023

真格基金邀請在 AI 創業者季逸超（Peak）於 Podcast 分享他對最近 AI 浪潮的反思、觀察和預測。

Peak 在十多年前高中的時候就獨立開發了猛獁瀏覽器，因此登上了 Fox 雜誌的封面，獲得天使投資。後來又主導研發了 Magi 知識引擎，以及相關的知識圖譜、信息檢索、NLP 等一系列的相關技術。

本集 Podcast 連結在此，以下為重點整理。

回顧與反思

創業者的市場機會 To C: on-device AI, To B: on-premise
真正有價值的是不屬於你，而是與你共生的資料
運用客戶的資料訓練基礎模型，模型的所有權歸 AI 公司，但是客戶的資料不能帶走。（編按：共生指的是，客戶在平台上搭建的資料流、針對某個場景或功能所回饋的標記資料、為了兼容性而轉換的資料。）
To B 生意要盡量靠近企業內部協作工具，To C 生意要和設備端靠攏
LLM 的能力非常強，很多任務可以透過 in context learning（語境學習）達成，因此無論是做 To B 還是To C，都要盡量靠近資料源頭。企業的資料基本上都匯聚於企業內部協作工具，而個人應用場景的資料會在設備端比較多。

Next big thing

當前的技術瓶頸不一定是 Next big thing，但一定是 Next big thing 要去解決的問題。

別把解決了最顯眼的技術瓶頸當做自己唯一的護城河
對於任何一個技術創業者來說，絕對不要把解決最顯眼的技術限制當做自己唯一的一個護城河，一定要找到除此之外的點。
先行者的歷史包袱
Google chrome 被 Microsoft new Bing 反向定位。
產品規劃需考量監管與合規
合規是一個動態的問題，審核一定要與核心解耦合。OpenAI 有一個服務叫做 OpenAI API 的 moderation API，把它涉及個人隱私偏見的部分，都包裝成了一服務。

AGI 市場的觀察

低垂果實快速耗盡
目前 AI ToB 有 65% 的需求，是資訊的檢索、匯總和再生成。大概有 20% 的客戶有流程自動化和決策輔助的需求，像是資料流處理、寫 SQL 取資料。而這是非常淺事情。
LLM 不能解決 AI 落地難和複製難的問題
目前 LLM 集中發展上述低垂果實這類的應用，因為是客戶的需求撞上了技術，而這不是健康的長期發展狀態。另外，雖然的確成功加速了單個客戶的落地時間，但是生成式 AI 跟我們過往做的很多 AI 產品，最大區別是它的隨機性其實非常的大，而大客戶對於可靠度的要求非常高，再加上其優化週期很長，很多場景在 POC 階段就失敗了。
至於複製難的部分，其實客戶要的根本不是 AI，也不是模型，而是一個解決方案。LLM 的確統一了 NLP 的模式，開發的過程中可能只會面對一個大模型了，但是基於模型之上的解決方案的開發壓力依然是非常巨大的。
與客戶共生，持續優化營運和反饋機制
目前 LLM 在應用層，大家提供的功能都很接近，競爭最激烈的地方是在企業營運流程中，建置更好的反饋機制。這是一種與客戶共生的途徑，它更不容易去切換到另外一個供應商。許多 LLM Ops 公司關注的是將營運能力作為一項服務供應給所有的大模型。
這一波大模型的中文基礎仍然薄弱，當前的先行者已經基於其上建構應用了，導致陷入了 premature optimization（過早優化）的狀況。

給新創團隊的建議

不要過度關注模型表現，應專注在業務邏輯的抽象層
很多討論集中在模型的表現，但實際上很多的 Benchmark 放到業務流程中，不是很重要。
另外，給新創業團隊的一個建議，就是在規劃產品的時候，可以假設自己可以使用當前最好的模型。並且做好自己業務的一個抽象層，把自己的大模型應用跟你上層的業務邏輯與客製化的開發工程進行一個比較好的抽象，建立一個屬於自己業務的基準流程，然後頻繁嘗試去快速叠代
Low-code LLM platform 為時尚早
回顧一下比較熱門的 Low-code/No-code 平台，像是 Airtable、NocoDB，它的流程是關連式資料庫，經過一連串資料處理，再以數據儀表板或是後台的形式呈現，這是一個從標準到繁瑣到標準的一個過程。LLM 並沒有這樣的流程，我們使用 prompt 跟大模型發送需求，然後模型返回一個東西，這個過程非常的標準。
向量資料庫的侷限
向量資料庫是市場上目前最熱門的產品。在向量資料庫中，資料被表示為向量或數值特徵的集合，而不僅僅是傳統的結構化數據。這些向量可以代表各種形式的資訊，例如圖像、聲音、文本、視頻等。在推薦系統還有語義搜尋上是非常有用的東西。
但它無法解決 LLM 模型的硬傷。一個是向量資料庫無法讓模型突破自身的 context limit；另一個是輸入給 LLM 模型的其實是文本，而非經常使用向量資料庫儲存的 embedding。

懂 AI 的產品經理是稀缺資源

對 AI 產品的正確理解
生成式 AI 產品的不確定性、響應速度跟服務成本，跟之前都有非常非常大的區別，好的產品經理應該要既能瞭解上個世代的產品特型，也要能明白 AI 產品與其的差別。
在產品中構建數據飛輪
用 Midjourney 生成一張圖，它永遠會先提供四張圖，讓使用者去挑一個。這個過程中其實它就完成了一個數據飛輪的構建，因為它默認被挑選的那一張圖應該比另外三張還要好。所以對於 Midjourney 來說，它的數據飛輪的反饋率是100%。一個好的產品經理應該要有能力在 AI 產品中去構建數據飛輪。
To B 端的產品經理會更加稀缺
To B 面向的產品，它的用戶體驗和交互感覺比 c 端的要落後 3–5 年以上。因此 To B 面向又懂 AI 的產品經理是更稀缺的一個資源。

對 AI 市場的預測

只有垂直應用，沒有垂直模型
在 GPT 這種通用大模型出來之前，要做任何一件事，都在使用是垂直模型。所以現在許多人說到了 LLM 時代，仍然要做一個垂直的大模型。
實際上，垂直模型沒有解決任何通用模型的本質的缺陷。垂直模型不能解釋、不能支撐營運、不能溯源，而且市面上目前大部分垂直模型在它的領域內甚至其實性能是不如 GPT4 的。因為現在通用大模型的數據和規模，遠遠沒有達到飽和，任何有價值的領域直接就會被整合進通用模型中。因此你任何增加新的這個領域，其實也會不僅讓模型在這一個領域內的能力提升，它會影響整個橫向的提升。
所以總結來說就是垂直應用之間的差異應該在業務而不在模型。
真正的多模態模型還未到來
目前的多模態模型是拿文本去訓練的，他們做的只是把圖片或者音檔等其他的模態，通過一層轉換，轉成一個能夠融入文本特徵、文本向量、特徵向量空間的東西，此時這個模型所有對於世界的認知仍然來自於它文本的預訓練。
理想中的真正的多模態模型的世界知識不應該來自於文本預訓練，而是應該他在訓練的過程中見過這世界的大千世界。他可能看過YouTube，知道這些梗到底是怎麽回事，而不是只是看過那些文本。（編按：讓資料源更豐富，例如：影片中的情境、語氣。）
另外，Interleaved （交錯）的多模態輸入輸出是值得投入的目標。可以理解成輸入的是一篇圖文，輸出也是圖文，甚至是音頻，這樣這個模型它是整體能力會有一個品質的飛躍提升，而不是翻譯的這種感覺。
多模態模型確實可能解決一些跨出領域的問題，比如說之前無論做機器人還是自動駕駛，總會有些 edge case 或者一些傳統上難以解決的事。也許有一定希望可以透過多模態模型來解決。
RLHF 是手段而不是目的，其本身複雜且不穩定
大型模型訓練過程中的 SFT（supervise fine-tuning）和 RLHF (Reinforcement Learning from Human Feedback，人類反饋的強化學習)的目的是確保最終產物的一致性，以及人類的偏好。
近期的 DPO (Direct Preference Optimization)說明了如果已經收集到足夠多的 feedback data，其實可以省掉 reward model，直接優化 large language model 即可。
另外，許多人都拿 GPT4 代替人去打分做 human preference，總體來說的偏好跟人是非常接近，至少從排序上來說是一致的。
所以對於創業團隊來說，真的不要在 RLHF 上投入特別多的精力。
更長的 context 會開啟更多模型潛力
LLM 加向量資料庫這個組合，很像一個儲存空間巨大但記憶體很小的電腦，這個硬碟裡存了一堆你過往工作的文件，但是每次你只能看 200 個字。使用起來相當痛苦。而且也得不到什麼關鍵的結論。
現在大家常用的 LangChain 其實就是在用很複雜 chain prompt，但是大家知道環節只要多，很多事情就是不可逆的，一個環節出錯，後面全都完蛋了。所以目前 LangChain 實際上使用下來它的成功率是很低的。
long context 的終極目標是能夠高效利用原本寫給人類看的文本資源。舉個例子，任何公司都會新員工的培訓資料，可能是工具使用說明書，說明書蠻長的，此時如果能有一個更長的 context 的話，對於要實現一個新的任務，我們不需要讓模型去單獨訓練或微調，而是把原來給人的材料讓這個模型看一眼，那它可能通過說明書學會了使用一個資源。這對模型的潛力是一個巨大的提升。
大量 AI 創新將誕生在看不見的地方
不要給 AI 做 plugin，而讓 AI 成為自己業務的一個 plugin。
AI 人才面臨價值危機
第一，要做 AI 創業的話，必須要有技術之外的知識，純 AI 背景的人才會比較吃虧。
第二，以前在各個 AI 公司或大廠的中層，其實培養了很多就是既懂技術又懂產品的人，這樣的人也比較符合創業者的特性。但現在其實有了 LLM 等一系列新的開發模式之後，我們發現其實分化特別特別嚴重，就逐漸只剩下最精英的一群人做核心技術，剩下全都是做交付。
第三，技術路線的逐漸收斂，然後其實領域也是逐漸大一統，你會發現無論做NLP/CV 什麽，大家用的底層技術越來越接近了。這個帶來一個必然的結果就是強人帶隊。
第四，開源的精神就是避免工程師的重覆投入，但現在這些開源AI，無論是模型本身還是 LLM Ops ，其實漸漸在讓 AI 人才他自身成為重覆投入，這是一個有點無奈的一個感覺，這不是一個非常成熟的一個觀點。

小結

現在是一個全新的開始，好的時候還沒來臨，所以也不用特別的著急。

最後，就無論是對於投資人還是創業者來說，大家這至少 10 年感覺還是比之前要成熟很多。所以總體來說這一次是大家是有備而來的，相信最後結局應該會更好一些。