首頁 > 專題 > 正文

向量數據庫?不要投資!不要投資!不要投資!

2023-06-03 10:46:18來源:InfoQ  

作者 | 吳英駿


(相關資料圖)

我對生成式 AI 大模型的未來充滿了希望,同樣,我對向量數據庫行業也非常看好。只不過如果有人想新入局向量數據庫賽道,我只能表示勸退。與其投資新的向量數據庫項目,還不如關注現有數據庫中哪些加上向量引擎可以變得更加強大。

推特上關于向量數據庫的調侃。

由于疫情、通貨膨脹、美聯儲加息、國際局勢等諸多因素,尤其科技領域的風險投資市場其活躍度在 2022 年降至冰點。相信很多投資人都是抱著“躺平”的觀點度過了過去的一年。慶幸的是,ChatGPT 的誕生點燃了全世界對科技領域的熱情,投資活動如雨后春筍般蓬勃興起,重新煥發了活力。很顯然,生成式 AI 大模型的底層系統以及基于生成式 AI 大模型的應用都是投資熱點。除了 OpenAI 獲得微軟 100 億美金投資之外,AI 創業公司例如 Hugging Face、Jasper、 Stability AI、Midjourney、MiniMax 等,都在資本市場上頗受追噴,公司的估值也是水漲船高。

生成式 AI 大模型初創公司的投前估值已經接近 1 億美金。 圖片來源:https://fortune.com/2023/04/06/how-much-are-generative-ai-startups-worth-venture-capital/。

作為數據基礎設施領域的創業者,我一直專注在數據庫與實時流計算賽道,似乎這次的 AI 大爆發應該與我無緣。然而有意思的是,向量數據庫,這一數據庫領域中的細分賽道,卻在短期內成為了萬眾矚目的焦點,讓本該相對沉寂的數據庫市場再次熱鬧了起來。最近有不少投資人聯系我,詢問我對向量數據庫的看法。畢竟,對于過去一整年出手甚少的投資者來說,數據庫系統這一技術壁壘較高的領域出現了一個熱點,自然不應該錯過這個良機。然而,我的回答卻是十分干脆:“不要投資”。更準確的說,如果你已經投資了一些向量數據庫,那么恭喜你,可以期待在這個新的時代一飛沖天;如果你在之前沒有入場向量數據庫的話,那現在入場可能并非明智的選擇。為什么呢?我們可以從技術、應用、與市場三個方面來探討。

向量數據庫的技術

在傳統的關系型數據庫中,數據通常以表格為形式來存儲。然而,隨著 AI 時代的到來,我們面臨著圖像、音頻和文本等海量的非結構化數據。這些數據無法簡單地以表格形式存儲,而是需要通過機器學習算法從這些數據中提取出以向量為表示形式的“特征”。向量數據庫的興起便是為了解決對這些向量進行存儲與計算的問題。

向量數據庫的核心在于對數據的索引。使用倒排索引等技術,向量數據庫可以通過將向量的特征進行分組和索引,以實現高效的相似性搜索。同時,向量量化技術可以幫助向量數據庫將高維向量映射到低維空間,從而減少存儲和計算成本。基于索引技術,向量數據庫通過自身的各類向量操作,如向量相加、相似度計算和聚類分析等,使得用戶能夠對向量進行高效搜索。

至于向量數據庫的底層存儲,實際上相比于索引技術來說,顯得不那么重要。事實上,很多數據庫都可以直接添加索引模塊來實現高效向量搜索。而現有數據庫,尤其是基于列式存儲的實時分析數據庫,本身便具有卓越的數據壓縮率。對于向量數據而言,由于每個向量都是由大量的維度組成,通過列存儲可以將相同維度的數據連續存儲,從而提高存儲效率和查詢性能。此外,列存數據庫還能夠針對列級別的操作進行優化,如向量相似性計算和聚合操作。這也是為什么網絡上紛紛流傳新晉向量數據庫 Chroma“僅僅”是在著名實時分析數據庫 ClickHouse 上封裝了一層而已。當然,Chroma 的聯合創始人也出來澄清,表示他們會很快去除對 ClickHouse 的依賴。

Chroma 聯合創始人 Jeff Huber 澄清說,“本周末 Chroma 便將不再使用 ClickHouse,并會轉變成一個云原生數據庫。”

不論 Chroma 的未來如何,我們都不得不承認,想要使現有數據庫支持向量搜索功能并非很難實現,而大量現有數據庫很有可能在不久的未來便會推出自己的向量搜索功能。

向量數據庫與生成式 AI 大模型

我們再來說說為什么向量數據庫在最近火了起來。向量數據庫并非在這兩年興起的新興物種,而現有的向量數據庫公司例如 Zilliz(2017 年)、Pinecone(2019 年)、Weaviate(2019 年)等都已經有了 4-6 年的歷史。

那為什么最近的生成式 AI 大模型能促進向量數據庫的火爆?這有幾方面原因。其一,生成式 AI 大模型需要大量的數據進行訓練,以獲取豐富的語義和上下文信息。這導致了數據量的爆發式增長。向量數據庫作為數據的管理者,能夠高效的幫助管理數據。其二,生成式 AI 大模型生成的文本往往需要進行相似性搜索和匹配,以提供準確的回復、推薦或匹配結果。傳統基于關鍵詞的搜索方法可能無法滿足復雜的語義和上下文要求,而這也使得向量數據庫有了用武之地。其三,生成式 AI 大模型不僅限于處理文本數據,還可以處理圖像、語音等多模態數據。向量數據庫作為一種能夠存儲和處理多種數據類型的系統,能夠有效地支持多模態數據的存儲、索引和查詢。

以上幾點原因都能推導出一個觀點,便是向量數據庫的發展與生成式 AI 大模型高度綁定。只要生成式 AI 大模型在未來的幾年內繼續高速發展,向量數據庫也一定能夠獲得足夠多的需求。

向量數據庫的市場需求與格局

在談了向量數據庫的技術與應用之后,我們來談談市場。任何投資行為都是要追求收益。想要預估收益,必定需要評估現有市場需求與供給情況,再來判斷投資是否能夠獲得有吸引力的回報。為什么我不推薦現在入場投資向量數據庫呢?這是因為向量數據庫已經擁有了足夠多的產品,而向量數據庫的用戶幾乎總是能夠在現有的市場中找到合適的產品,這使得新入場的玩家變得機會渺茫。

市場上主流的特化向量數據庫與支持向量檢索的數據庫。

當一家公司擁有強大的技術基礎和需要先進的向量搜索功能的大量工作負載時,他們真正需要的是一款特化的向量數據庫。在這個領域中,領先的選擇包括 Chroma(2000 萬美金融資)、Milvus(1.13 億美金融資)、Pinecone(1.38 億美金融資)、Qdrant(980 萬美金融資)、Weaviate(6770 萬美金融資)等等。這些玩家在最近的幾年內都收獲了大量的融資,有望占據重要的市場份額。這些向量數據庫提供了高效的向量存儲、索引和相似性搜索功能。它們通常具有針對向量數據的特定優化,如基于倒排索引的相似性搜索和高效的向量計算。這使得它們能夠滿足公司在推薦系統、圖像搜索和自然語言處理等領域的需求。

而如果一家公司已經購買了 Elastic、Redis、SingleStore 或 Rockset 等商業數據庫,并且不需要特別先進的向量搜索功能,他們可以充分利用這些數據庫現有的功能。這些商業數據庫在非向量數據處理方面表現出色,適用于各種用例和場景,而在向量數據處理方面只要能做到及格,便能夠滿足一般用戶的需求。此外,數據庫技術正在不斷發展,許多數據庫正在考慮引入向量搜索功能以滿足自身現有用戶需求。對于目前缺乏向量搜索功能的數據庫,它們實現這些功能只是時間問題。

基于 PostgreSQL 開發或者使用 PostgreSQL 協議的數據庫已經覆蓋了各個細分領域。

事實上,即使沒有這些商業數據庫,用戶可以很輕易的安裝 PostgreSQL,并使用 PostgreSQL 內置的 pgvector 功能進行向量搜索。PostgreSQL 可以被認為是開源數據庫領域的黃金標準,在數據庫的各個賽道,包括事務處理、在線分析、流處理、時序分析、空間分析等方面,都有著相當完整的支持。對于那些僅僅想嘗試使用向量數據庫的非專業用戶來講,它們完全可以自己下載開源的 PostgreSQL,或者使用例如 Supabase 和 Neon 這樣的托管服務,便能夠搭建出自己的簡易 AI 應用。

向量數據庫的市場格局已經注定了這一市場在未來將充滿激烈競爭,不同的用戶需求都已經有成熟的解決方案。在這一市場中想要從頭開始獲得一席之地實屬不易。

后 記

我對生成式 AI 大模型的未來充滿了希望,同樣,我對向量數據庫行業也非常看好。只不過如果有人想新入局向量數據庫賽道,我只能表示勸退。與其投資新的向量數據庫項目,還不如關注現有數據庫中哪些加上向量引擎可以變得更加強大。向量數據庫,不要投資!不要投資!不要投資!

作者簡介:

吳英駿,流數據庫公司RisingWave(risingwave.dev) 創始人&CEO。博士畢業于新加坡國立大學計算機系,為前 Amazon Redshift 工程師和前 IBM Research Almaden研究員。常年擔任數據庫三大頂會SIGMOD/VLDB/ICDE的評審委員會成員。技術交流可以關注公眾號“RisingWave中文開源社區”或者添加微信“risingwave_assistant”。

本文內容僅為提供更多信息以供參考或交流學習,不代表平臺立場,如有不同意見,歡迎大家投稿!

年薪60萬的數據分析師工作保不住了?!阿里達摩院研究發現,改用GPT-4成本只需幾千元

先別急著“用Rust重寫”,可能沒有說的那么安全

連代碼都沒寫就敢要融資:被ChatGPT帶火的向量數據庫,帶來了一大波造富神話

《2023 大語言模型綜合能力測評報告》出爐:以文心一言為代表的國內產品即將沖出重圍

活動推薦

關鍵詞:

責任編輯:hnmd003

相關閱讀

推薦閱讀