80% 的數據領導者認為數據和 AI 之間的界線正在變得模糊。對商業資料使用大型語言模型 (LLM) 可以為您帶來競爭優勢,但要實現這一優勢,如何建立、準備、管理、建模和擴展資料就顯得格外重要。
數以萬計的組織已經選擇 BigQuery 及其整合的 AI 功能來為數據雲提供支援。但在數據驅動的 AI 時代,組織需要簡單的方法來管理所有數據工作負載。BigQuery 將多個 Google Cloud 分析服務的關鍵功能融入到單一產品體驗中,成為 AI 就緒 (AI-ready) 的資料分析平台,為您提供管理BigQuery 表中結構化資料、非結構化資料、串流工作負載所需的簡單性和規模,而所有功能都具有最佳的CP值。
目錄
目錄
BigQuery 優勢
- 透過支援所有資料類型和開放格式來擴展您的資料和 AI 基礎。
- 無需預先調整大小,只需透過完全託管的無伺服器工作負載管理模型和通用 metastore,即可使用您不限規模的數據。
- 透過將多種語言和引擎 (SQL、Spark、Python) 引入單一資料副本,提高數據團隊協作的靈活性和敏捷性。
- 透過內建的高可用性、資料治理和企業安全功能,支援端到端資料到 AI 生命週期。
- 透過專為所有資料使用者設計的統一產品體驗,以及 AI 驅動的輔助和協作功能來簡化分析。
藉由 BigQuery,您可以快速有效地將生成式 AI 引入您的數據,並運用大型語言模型(LLM)。 BigQuery 透過 BigQuery ML 和 BigQuery DataFrames 提供 Gemini 模型,從而簡化了企業的多模態生成式 AI。它透過與 Vertex AI 的檔案處理和語音轉文字 API 的擴展整合,以及支援 AI 驅動商業資料搜尋的向量功能,幫助您從非結構化資料中釋放價值。結合結構化和非結構化資料所獲得的見解可用於進一步調整您的LLM。
支援所有資料類型和開放格式
客戶使用 BigQuery 來管理所有資料類型(結構化和非結構化),擁有具精細度的存取控制和整合治理。BigLake 是 BigQuery 的統一儲存引擎,支援開放式資料表,讓您可以使用現有的開源和舊版工具存取結構化和非結構化資料,同時受益於整合的資料平台。BigLake 支援所有主要的開放式資料表,包括 Apache Iceberg、Apache Hudi 以及現在與 BigQuery 原生整合的 Delta Lake,也為 Iceberg 提供完全託管的體驗,包括 DDL、DML 和串流支援。
您的數據團隊需要存取無論是結構化、非結構化還是開放格式的資料。為了支持這一點,Google Cloud 推出了 BigQuery Metastore,這是一種託管、可擴展的執行後設資料服務,為分析和 AI 執行實施精細的存取控制策略。支援的執行包括 Google Cloud、開源引擎(透過連接器)和第三方合作夥伴引擎。
在單一資料副本上使用多種語言和無伺服器引擎
客戶越來越希望能在單一資料副本上運行多種語言和引擎,但分析和 AI 系統的分散性使這一點變得具有挑戰性。然而,現在您可以將 Python 和 PySpark 的程式設計能力直接應用在您的數據,而無需離開 BigQuery!
BigQuery DataFrames 將 Python 的強大功能與 BigQuery 的規模和易用性結合在一起,並且學習曲線極短;還透過 SQL 到 BigQuery 和 BigQuery ML API 的透明轉換,實現了400多個 Pandas 和 scikit-learn API。這打破了客戶端功能的障礙,使資料科學家能夠探索、轉換和訓練 BigQuery 的 TB 級資料和處理能力。
Apache Spark 已成為流行的資料處理執行,特別是對於資料工程任務來說。事實上,在過去一年中,客戶對 Google Cloud 中無伺服器 Apache Spark 的使用量已經增加了 500% 以上。跟 BigQuery 的其他部分一樣,Spark 引擎完全無伺服器,無需管理運算基礎架構。您甚至可以使用 PySpark 建立預存程序,並從基於 SQL 的 pipeline 呼叫它們。
近乎即時地做出決策並提供 ML 模型
數據團隊越來越常被要求提供即時分析和 AI 解決方案,以縮短訊號、洞察和行動之間的時間。BigQuery 現在透過對連續 SQL 查詢的全新支持,幫助簡化即時串流資料處理;連續 SQL 查詢可在資料透過 SQL 語句到達時對其進行處理。
BigQuery 連續查詢透過資料和 AI 平台的實時企業串聯,強化了下游 SaaS 應用程式(例如 Salesforce)的應用。 此外,為了支援開源串流工作負載,Google Cloud 也宣布推出 Apache Kafka for BigQuery 預覽版。客戶可以使用 Apache Kafka 管理串流資料工作負載並提供 ML 模型,而無需擔心版本升級、重新平衡、監控和其他操作難題。
透過治理和企業級功能擴展分析與 AI
為了讓您更輕鬆地管理、發現和治理數據,去年 Google Cloud 將數據品質、沿襲和分析等數據治理功能從 Dataplex 直接引入 BigQuery;更將擴展 BigQuery,包含由統一後設資料目錄(metadata catalog)提供支援的 Dataplex 增強搜尋功能,以協助資料使用者發現資料和 AI 資產,包括來自 Vertex AI 的模型和資料集。BigQuery 中的列級沿襲追蹤 (Column-level lineage tracking) 現已提供預覽版,隨後將推出 Vertex AI pipeline 沿襲預覽。精細存取控制的治理規則也處於預覽狀態,允許企業基於後設資料定義治理策略。
對於尋求跨地理區域增強冗餘(enhanced redundancy)的客戶,Google Cloud 推出了 BigQuery 託管災難復原。該功能現已推出預覽版,可提供運算和儲存的自動故障轉移,並將提供專為關鍵業務工作負載量身定制的全新跨區域服務等級協定 (SLA)。 託管災難復原功能在次要區域提供備用運算容量,且已包含在 BigQuery Enterprise Plus 版本的價格之中。
為所有數據使用者提供統一的體驗
作為 Google Cloud 的單一整合資料分析平台,BigQuery 統一了資料團隊與 BigQuery Studio 的協作方式。BigQuery Studio 現已推出,為資料團隊提供了一個協作資料工作區,所有資料從業者都可以透過它來加速資料到 AI 的工作流程。BigQuery Studio 讓您在單一的統一分析工作區中使用 SQL、Python、PySpark 和自然語言,無論資料的規模、格式或位置為何。 BigQuery Studio 中的所有開發資產都具有完整的生命週期功能,包括團隊協作和版本控制。 自從 BigQuery Studio 在 Next ‘23 推出以來,數十萬用戶都在積極使用新介面當中。
Gemini in BigQuery:提供 AI 輔助和協作體驗
Google Cloud 宣布了 BigQuery 中 Gemini 的幾項創新,可協助數據團隊在資料準備、分析和工程方面獲得 AI 驅動的體驗,並提供智慧建議來提高使用者工作效率和優化成本。BigQuery 數據畫布(data canvas)是以 AI 為中心的自然語言輸入體驗,使資料發現、探索和分析變得更快、更直觀。 BigQuery 中的 AI 增強資料準備可協助使用者清理和整理資料,並建立低程式碼視覺化 data pipeline,或重建舊管道。Gemini in BigQuery 還可以幫助您使用簡單的自然語言提示編寫和編輯 SQL 或 Python 程式碼,引用相關架構和後設資料。
本文翻譯並改寫自 Google Cloud 官方部落格。希望大家都有透過宏庭科技這篇文章了解到 BigQuery 最新消息! 我們期待能持續將最熱門、最前線的話題帶到您面前。