連結至 Azure Blob
在開始之前,請先了解如何在 Canner Enterprise 中連結資料來源。
Basic
- Name: 資料庫於 Canner Enterprise 之顯示名稱,後續可作修改。
- Data Source Type: 資料庫類型,請選擇
Azure Blob
。
Data Source Properties
File Format
Canner Enterprise 每個資料來源只能連結單一種檔案格式,請在此選擇一個您要連結的 Canner Enterprise 支援檔案格式。
舉例來說,若您選擇連結 CSV 格式檔案,即使您 S3 指定路徑下有包含 JSON, Excel, CSV 等多種資料格式檔案,系統也只會連結 CSV 檔。
URI
填入您要連結的 Azure Blob 容器檔案路徑。
路徑格式為:wasbs://<container>@<storage account>.blob.core.windows.net/<folder_name>
Scan Type
1. Directory
系統會連結您路徑目錄下的所有指定格式檔案。
請根據您的資料夾結構以及以下兩種連結情境,於URI中填入您要指定的資料夾目錄路徑。
範例檔案結構:
Superstore/
├─ Orders/
│ ├─ Orders_2014.csv
│ ├─ Orders_2015.csv
├─ People/
│ ├─ People_East.csv
│ ├─ People_North.csv
│ ├─ People_South.csv
│ ├─ People_West.csv
連結情境A. 指定路徑下每個檔案為一個獨立的 Table
連結 URIwasbs://my-container@my-storage-account.blob.core.windows.net/Superstore/Orders
下的 Directory。
連線成功後,此來源在 Canner Enterprise 中會有Orders_2014
及Orders_2015
兩個 Table。
連結情境B. 指定路徑下每個資料夾為一個獨立的 Table
連結 URIwasbs://my-container@my-storage-account.blob.core.windows.net/Superstore
下的 Directory。
連線成功後,此來源在 Canner Enterprise 中會有Orders
及People
兩個 Table。注意此情境需要資料夾下的所有檔案格式及 Schema 皆相同。
Recursive Scan
若您連結的指定路徑目錄下還有資料夾,並且希望連結成功後所有資料夾可於 Workspace 中 Query 到的話,可勾選此選項。
2. Single file path
系統會連結您指定路徑的單一檔案。 於URI中填入您要指定的檔案路徑。
範例檔案結構:
Superstore/
├─ Orders/
│ ├─ Orders_2014.csv
│ ├─ Orders_2015.csv
範例: 連結 URI
wasbs://my-container@my-storage-account.blob.core.windows.net/Superstore/Orders/Orders_2014.csv
檔案。
連線成功後,此來源在 Canner Enterprise 中會有Orders_2014
一個 Table。
如果您的 File Format 選擇 Excel 格式,則只能使用 Single file path 方式來連結檔案,請填入單一檔案的連結路徑,系統會將該 Excel 檔中的每個工作表(Sheet) 解析為各個 Table。
3. Multiple file paths
系統會連結您路徑目錄下的所有指定格式檔案,並且可以指定 include/exclude 特定的檔案,再整合為單一 Table。
注意此用法需要您 include 的所有檔案格式及 Schema 皆相同。
於Basic URI中填入您要指定的資料夾目錄路徑,再接續設定要包含或排除的指定檔案路徑。
- Include file paths: 列出在 Basic URI 下您要指定連結的檔案路徑(支援 wildcard (
*
),例如/<folder-name>/*.csv
) - Exclude file paths: 列出在 Basic URI 下您要指定排除的檔案路徑 (支援 wildcard (
*
),例如/<folder-name>/*.csv
)
範例檔案結構:
Superstore/
├─ 2021/
│ ├─ Orders_2021.csv
│ ├─ Orders_history.csv
│ ├─ People_2021.json
│ ├─ .metadata
├─ 2022/
│ ├─ Orders_2022.csv
│ ├─ People_2021.json
│ ├─ .metadata
範例: 連結 Basic URI
wasbs://my-container@my-storage-account.blob.core.windows.net/Superstore
下的 Directory。
Include file paths: 設定/2021/Orders_2021.csv
/2022/Orders_2022.csv
Exclude file paths: 設定/2021/Orders_history.csv
連線成功後,此來源在 Canner Enterprise 中會有Superstore
一個 Table,此 Table 內容為/2021/Orders_2021.csv
/2022/Orders_2022.csv
兩份檔案整合。
Blob Storage Account & Access Key
AWS 使用者的的存取金鑰,取得方式請參考 Azure 儲存體 - 管理儲存體帳戶存取金鑰
File Format Details
- CSV
- Excel
- JSON
- ORC
- Parquet