連結至 Azure Blob
在開始之前,請先了解如何在 Canner Enterprise 中連結資料來源。
Step 1: 建立資料來源
您可以透過以下兩種操作來建立資料來源,第一種為點擊側欄 Data Source 的 “+” 按鈕,或是點擊 Overview 頁面中的 Create a Data Source 按鈕來建立。
Step 2: 設定連線資訊
在彈出的視窗表單中,填入及設定連線資訊,並點擊 Submit 送出。
Basic
- Name: 資料庫於 Canner Enterprise 之顯示名稱,後續可作修改。
- Data Source Type: 資料庫類型,請選擇
Azure Blob
。
Data Source Properties
File Format
Canner Enterprise 每個資料來源只能連結單一種檔案格式,請在此選擇一個您要連結的 Canner Enterprise 支援檔案格式。
舉例來說,若您選擇連結 CSV 格式檔案,即使您 Azure Blob 指定路徑下有包含 JSON, Excel, CSV 等多種資料格式檔案,系統也只會連結 CSV 檔。
URI
填入您要連結的 Azure Blob 容器檔案路徑。
路徑格式為:wasbs://<container>@<storage account>.blob.core.windows.net/<folder_name>
若您填入的 URI 有特殊字元例如 :?#[]@!$&'()*+;
,會導致系統判斷錯誤,請注意您的 Bucket 或檔案名稱不能包含這些字元。
Scan Type
1. Directory
系統會連結您路徑目錄下的所有指定格式檔案。
請根據您的資料夾結構以及以下兩種連結情境,於URI中填入您要指定的資料夾目錄路徑。
範例檔案結構:
Superstore/
├─ Orders/
│ ├─ Orders_2014.csv
│ ├─ Orders_2015.csv
├─ People/
│ ├─ People_East.csv
│ ├─ People_North.csv
│ ├─ People_South.csv
│ ├─ People_West.csv
連結情境A. 指定路徑下每個檔案為一個獨立的 Table
連結 URIwasbs://my-container@my-storage-account.blob.core.windows.net/Superstore/Orders
下的 Directory。
連線成功後,此來源在 Canner Enterprise 中會有Orders_2014
及Orders_2015
兩個 Table。
連結情境B. 指定路徑下每個資料夾為一個獨立的 Table
連結 URIwasbs://my-container@my-storage-account.blob.core.windows.net/Superstore
下的 Directory。
連線成功後,此來源在 Canner Enterprise 中會有Orders
及People
兩個 Table。注意此情境需要資料夾下的所有檔案格式及 Schema 皆相同。
Recursive Scan
若您連結的指定路徑目錄下還有資料夾,並且希望連結成功後所有資料夾可於 Workspace 中 Query 到的話,可勾選此選項。
2. Single file path
系統會連結您指定路徑的單一檔案。 於URI中填入您要指定的檔案路徑。
範例檔案結構:
Superstore/
├─ Orders/
│ ├─ Orders_2014.csv
│ ├─ Orders_2015.csv
範例: 連結 URI
wasbs://my-container@my-storage-account.blob.core.windows.net/Superstore/Orders/Orders_2014.csv
檔案。
連線成功後,此來源在 Canner Enterprise 中會有Orders_2014
一個 Table。
如果您的 File Format 選擇 Excel 格式,則只能使用 Single file path 方式來連結檔案,請填入單一檔案的連結路徑,系統會將該 Excel 檔中的每個工作表(Sheet) 解析為各個 Table。
3. Multiple file paths
系統會連結您路徑目錄下的所有指定格式檔案,並且可以指定 include/exclude 特定的檔案,再整合為單一 Table。
注意此用法需要您 include 的所有檔案格式及 Schema 皆相同。
於Basic URI中填入您要指定的資料夾目錄路徑,再接續設定要包含或排除的指定檔案路徑。
- Include file paths: 列出在 Basic URI 下您要指定連結的檔案路徑(支援 wildcard (
*
),例如/<folder-name>/*.csv
) - Exclude file paths: 列出在 Basic URI 下您要指定排除的檔案路徑 (支援 wildcard (
*
),例如/<folder-name>/*.csv
)
範例檔案結構:
Superstore/
├─ 2021/
│ ├─ Orders_2021.csv
│ ├─ Orders_history.csv
│ ├─ People_2021.json
│ ├─ .metadata
├─ 2022/
│ ├─ Orders_2022.csv
│ ├─ People_2021.json
│ ├─ .metadata
範例: 連結 Basic URI
wasbs://my-container@my-storage-account.blob.core.windows.net/Superstore
下的 Directory。
Include file paths: 設定/2021/Orders_2021.csv
/2022/Orders_2022.csv
Exclude file paths: 設定/2021/Orders_history.csv
連線成功後,此來源在 Canner Enterprise 中會有Superstore
一個 Table,此 Table 內容為/2021/Orders_2021.csv
/2022/Orders_2022.csv
兩份檔案整合。
Blob Storage Account & Access Key
AWS 使用者的的存取金鑰,取得方式請參考 Azure 儲存體 - 管理儲存體帳戶存取金鑰
File Format Details
- CSV
- Excel
- JSON
- ORC
- Parquet
Step 3: 完成建立
進行 Submit 後,稍後片刻將會在側欄中顯示 Azure Blob 的資料來源,點擊後可以進入此資料來源細節頁面。