在上一篇文章中,探討了檢索增強生成 (RAG) 的概念,結合生成式 AI 的創造力與外部知識庫的即時檢索能力,顯著提升了 LLM 的效能與應用範圍。在這篇文章中,我們將更深入地支援 Google 搜尋技術,如何極大地增強 RAG 系統資訊檢索能力的有效性。
Google 品質的檢索和排名
使用深度學習的語意搜尋 (Semantic search) 已成為大多數搜尋引擎的重要功能,讓開發人員能建立理解查詢文字意義的系統,而非僅依賴關鍵字匹配。儘管有這些進展,大多數 RAG 系統仍使用向量資料庫中的簡單相似度搜尋來檢索資訊。這種方法常常導致低品質或不相關的結果。搜尋品質較低的主要原因在於「問題本身並不等同於答案」這個原則。例如,問題「為什麼天空是藍色的?」和其答案「陽光散射導致天空呈現藍色」具有截然不同的語意。那麼,為什麼還要使用相似度搜尋來尋找答案呢?
語義搜尋不僅僅是相似性搜尋
然而,在許多實際的 RAG 應用場景中,數據集通常不包含預先存在的問答或查詢與候選對應的資料。因此,AI 模型必須學會預測查詢與其對應答案之間的關係,才能實現生產級的語意搜尋效果。Google 搜尋自 2015 年起引入語意搜尋,推出了以深度學習為基礎的排名系統 RankBrain 等重要的 AI 搜尋創新技術。隨後又推出神經匹配技術(neural matching),大幅提升搜尋結果的準確性。神經匹配讓搜尋引擎能夠理解查詢意圖與高度相關文件之間的關聯,從而辨識查詢的上下文,而不僅僅依賴簡單的相似性搜尋。
神經匹配技術幫助我們理解查詢與網頁中較模糊的概念表達,並將彼此匹配。此技術協助分析整個查詢或網頁,而非依賴關鍵字,從而更深入地理解其中代表的核心概念。例如,針對搜尋‘insights how to manage a green’這樣的內容,如果朋友問你這個問題,你可能會感到困惑。但藉助神經匹配技術,我們能夠解讀其意圖。透過分析查詢中更廣泛的概念表達,例如管理、領導力、人格特質等,神經匹配技術可以推斷出使用者正在尋求基於流行的顏色人格指南所提供的管理建議。 —AI 如何為出色的搜尋結果提供動力
神經匹配學習查詢和文件之間的關係
Vertex AI Search 採用了與 RankBrain 和神經匹配技術相同的流程,來生成查詢和文件的嵌入向量,這些向量能夠反應與語意之間的關係,實現具備 Google 品質的語意搜尋功能。開發者無需再自行開發方法來填補 RAG 系統中問題與答案之間的差距,而是可以輕鬆利用經過數十億用戶多年測試的語意搜尋技術。例如,若在一個流行的關鍵字搜尋引擎中載入 Google Merchandise Store 的所有產品目錄,輸入「適合冬天的保暖衣物」這樣的查詢,結果可能會是:
查詢「冬季保暖服裝」的典型關鍵字搜尋結果
當 Vertex AI Search 載入相同的產品目錄時,相同的查詢將傳回以下結果:
生成式 AI 回覆:您可以在 Google Merchandise Store 中找到以下三件冬季保暖的衣服。其中一些商品包括:Google Vail 中性灰色羽絨夾克、Google Denali 中性羽絨背心、Google Denali 女式羽絨背心、Super G Tahoe 中性黑色羽絨背心、Super G Glacier 中性羽絨夾克、Super G Glacier 女式羽絨夾克。
Vertex AI 查詢「冬季保暖服飾」的搜尋結果
正如您在上面的結果中看到的,查詢和答案的語義在許多情況下有很大不同。查詢通常代表使用者的意圖(即尋找保暖的衣服)而不是直接代表答案(即羽絨外套或背心)。生產級語意搜尋不僅僅是相似性搜索,還必須為使用者提供智慧推薦。
生產級語意搜尋+LLM推理
在先進的 RAG 系統中,通常會運用大型語言模型(LLM)的推理能力來克服單純相似性搜尋的局限性。將其與具生產級別的語意搜尋結合後,可以大幅提升先進 RAG 系統的效能。
作為LLM推理的基本範例,您可以動態建立以下個人化提示:
立冬時節,一位顧客正在電子商務網站上瀏覽服飾。「他們城市的冬天很冷;他們在網站上輸入「冬季保暖衣物」作為搜尋字詞;他們還可以使用哪些其他搜尋字詞來尋找相關和交叉銷售商品?」LLM 的回覆可能包括以下詢問:
- 特定類型:保暖冬季外套、舒適針織品、保暖緊身褲、防水雪靴
- 特定活動:滑雪服、冬季跑步裝備、適合工作的冬季服飾、舒適的家居服
- 特定風格:羊絨毛衣、羽絨背心、個性圍巾、運動休閒風格的冬季造型
透過建立一個可以使用這些查詢在 Vertex AI Search 上進行搜尋的 RAG 系統,您可以從 LLM 推理和產品級語義搜尋的強大功能中受益。其結果是一個系統可以發現符合不同需求和屬性(包括類型、活動和風格)的廣泛相關產品。
宏庭科技也曾為全球連鎖零售公司,利用 RAG 技術依據顧客情境需求,推薦相似產品,提高網站頁面內點選與購買率,更多成功案例,歡迎查看更多宏庭科技成功案例。
從文字到多模態,從搜尋到推薦
在 Vertex AI Search 中,文件會自動轉換為嵌入向量。進階開發者還可以依據業務需求,自訂嵌入向量,以擴展查詢與答案之間的關聯性。
自訂嵌入可以擴展查詢和回答關係
自訂嵌入允許搜尋引擎使用附加訊號來理解查詢和文件之間的關係,從而提高搜尋品質。例如,Vertex AI Multimodal Embeddings 可以產生自訂影片嵌入,可用於透過基於文字的查詢對影片內容進行語義搜尋。
這項技術同樣適用於打造自訂推薦系統。開發者可以訓練專屬的雙塔模型(dual encoder model),用來捕捉查詢與答案之間的業務特定關聯性。常見範例包括根據特定歌曲推薦相似風格的音樂、進行產品加購或交叉銷售,或者推薦搭配完整造型的時尚單品。
接著,您可以利用這些關聯性生成自訂的嵌入向量,進一步提升推薦的質量與個性化。這些技術大幅增強了 Vertex AI Search 根據專屬需求將查詢映射到相關答案的能力。
Google 擁有25年以上的關鍵字搜尋經驗
許多 RAG 的實現方式僅依賴語意搜索,透過嵌入模型提供的文檔語意進行匹配。然而,語意搜索並非萬能解決方案。在某些情況下,嵌入模型可能無法正確理解項目的含義,導致搜索失效。例如,模型可能無法掌握新添加的產品名稱,或未經訓練來記憶數百萬個產品型號的嵌入向量。
此外,大多數用戶仍期望傳統的關鍵字搜索體驗,例如精確或部分關鍵字匹配以及基於關鍵字的篩選機制。這在醫療和金融等領域尤為重要,因為關鍵字搜索是獲取精確且關鍵的病患信息、財務數據或合規文件的基本功能。
Google 除了在語意搜索方面的專業技術外,還在過去 25 年持續改進關鍵字搜索技術。Vertex AI Search 結合這些技術,提供一個混合式的搜索引擎,能同時針對每次查詢執行關鍵字和語意搜索,並根據分數合併和重新排序結果,將兩種搜索方法的優勢結合起來,填補各自的不足之處。
Vertex AI 搜尋中的混合搜索
查詢理解和重寫
使用者經常會輸入錯誤的查詢,或者記錯項目的準確名稱,在中文打字中,也會因打出語音相同,但字義不同的狀況,例如:「激動」與「機動」,雖讀音一樣,但字義完全不同。在這種情況下,查詢重寫與查詢擴展在解釋和修正輸入方面發揮著關鍵作用。Vertex AI Search 預設提供自動且語境感知的查詢重寫與擴展功能,支援多種語言,包含以下特性:
- 詞幹提取與拼寫校正
- 添加相關詞彙與同義詞
- 移除不重要的詞語
- 使用知識圖譜(Knowledge Graph)
例如,如果您使用 Google Merchandise Store 資料集在 Vertex AI Search 中搜尋「dinosaur keyholder」,您將得到以下結果:生成式 AI 回覆:您可以花 8.00 美元找到一個Chrome Dino 鑰匙圈。這是一款可愛的鑰匙扣,您可以隨身攜帶 。
Vertex AI 「恐龍鑰匙圈」的搜尋結果(鑰匙圈、掛繩和別針)
對於查詢詞「dinosaur」和「keyholder」,關鍵字搜索會自動擴展查詢,加入同義詞「dino」和「keychain」。同時,語意搜索則將「keyholder」視為一個基於意圖的查詢(即,你正在尋找一個恐龍配件),並認為它更接近於「lanyard(掛繩)」和「pin(徽章)」。
上述結果展示了關鍵字搜索與語意搜索的合併結果——無需整合其他搜索引擎,也無需手動維護同義詞詞典。當有需要時,還可以透過 Vertex AI Search 的服務控管功能,自行定義同義詞和查詢詞。
在本文中,我們了解 Google 搜尋的強大技術,能如何支援 RAG ,並使用 Vertex AI Search 作為資訊檢索引擎的好處。即使對於沒有任何建置 RAG 系統經驗的開發人員來說,Vertex AI Search 也為更快開始使用新一代 AI 技術奠定了良好的基礎。本文內容翻譯並改寫自 Google Cloud 官方部落格,為您提供最前沿的科技趨勢與應用實例。本文探討了探討了 RAG 的概念,以及支援 Google 搜尋的相同技術如何極大地增強 RAG 系統資訊檢索能力的有效性,立即查看更多宏庭科技的成功案例,了解 RAG 應用。宏庭科技身為 Google Cloud 的菁英合作夥伴,將持續致力於推動這些創新技術的實際應用,協助企業客戶把握 AI 帶來的商業契機。若您有興趣了解更多如何運用 Vertex AI 來加速您的工作進程,歡迎與我們聯繫,宏庭科技期待成為您數位轉型的最佳夥伴。若您對 Google Cloud 的多元應用有興趣,請密切關注我們的活動訊息,期待在活動中與您相見!