Skip to main content
Version: v1

連結至 AWS S3

開始之前

在開始之前,請先了解如何在 Canner Enterprise 中連結資料來源

Basic

  • Name: 資料庫於 Canner Enterprise 之顯示名稱,後續可作修改。
  • Data Source Type: 資料庫類型,請選擇 S3

Data Source Properties

File Format

Canner Enterprise 每個資料來源只能連結單一種檔案格式,請在此選擇一個您要連結的 Canner Enterprise 支援檔案格式
舉例來說,若您選擇連結 CSV 格式檔案,即使您 S3 指定路徑下有包含 JSON, Excel, CSV 等多種資料格式檔案,系統也只會連結 CSV 檔。

URI

填入您要連結的 AWS S3 bucket 路徑。
路徑格式為:s3://<bucket-name>/<storage-root>

Scan Type

1. Directory

系統會連結您路徑目錄下的所有指定格式檔案。
請根據您的資料夾結構以及以下兩種連結情境,於URI中填入您要指定的資料夾目錄路徑。

範例檔案結構:

Superstore/
├─ Orders/
│ ├─ Orders_2014.csv
│ ├─ Orders_2015.csv
├─ People/
│ ├─ People_East.csv
│ ├─ People_North.csv
│ ├─ People_South.csv
│ ├─ People_West.csv

連結情境A. 指定路徑下每個檔案為一個獨立的 Table
連結 URI s3://my-bucket/Superstore/Orders 下的 Directory。
連線成功後,此來源在 Canner Enterprise 中會有Orders_2014Orders_2015兩個 Table。

連結情境B. 指定路徑下每個資料夾為一個獨立的 Table
連結 URI s3://my-bucket/Superstore 下的 Directory。
連線成功後,此來源在 Canner Enterprise 中會有OrdersPeople兩個 Table。

注意

此情境需要資料夾下的所有檔案格式及 Schema 皆相同。

Recursive Scan

若您連結的指定路徑目錄下還有資料夾,並且希望連結成功後所有資料夾可於 Workspace 中 Query 到的話,可勾選此選項。

2. Single file path

系統會連結您指定路徑的單一檔案。 於URI中填入您要指定的檔案路徑。

範例檔案結構:

Superstore/
├─ Orders/
│ ├─ Orders_2014.csv
│ ├─ Orders_2015.csv

範例: 連結 URI s3://my-bucket/Superstore/Orders/Orders_2014.csv 檔案。
連線成功後,此來源在 Canner Enterprise 中會有 Orders_2014 一個 Table。

注意

如果您的 File Format 選擇 Excel 格式,則只能使用 Single file path 方式來連結檔案,請填入單一檔案的連結路徑,系統會將該 Excel 檔中的每個工作表(Sheet) 解析為各個 Table。

3. Multiple file paths

系統會連結您路徑目錄下的所有指定格式檔案,並且可以指定 include/exclude 特定的檔案,再整合為單一 Table

注意

此用法需要您 include 的所有檔案格式及 Schema 皆相同。

Basic URI中填入您要指定的資料夾目錄路徑,再接續設定要包含或排除的指定檔案路徑。

  • Include file paths: 列出在 Basic URI 下您要指定連結的檔案路徑(支援 wildcard (*),例如 /<folder-name>/*.csv
  • Exclude file paths: 列出在 Basic URI 下您要指定排除的檔案路徑 (支援 wildcard (*),例如 /<folder-name>/*.csv
範例檔案結構:

Superstore/
├─ 2021/
│ ├─ Orders_2021.csv
│ ├─ Orders_history.csv
│ ├─ People_2021.json
│ ├─ .metadata
├─ 2022/
│ ├─ Orders_2022.csv
│ ├─ People_2021.json
│ ├─ .metadata

範例: 連結 Basic URI s3://my-bucket/Superstore 下的 Directory。
Include file paths: 設定 /2021/Orders_2021.csv /2022/Orders_2022.csv
Exclude file paths: 設定 /2021/Orders_history.csv
連線成功後,此來源在 Canner Enterprise 中會有 Superstore 一個 Table,此 Table 內容為 /2021/Orders_2021.csv /2022/Orders_2022.csv 兩份檔案整合。

AWS Access Key & Secret Key

AWS 使用者的的存取金鑰,取得方式請參考 AWS - 管理 IAM 使用者的存取金鑰

S3 Endpoint

此項為如您要使用有相容 S3 的其他儲存庫時使用,如希望知道詳細使用方式,請另聯繫 Canner Enterprise Support。

File Format Details

  • File content with headers: CSV 檔案是否有 Header,打開此選項系統會將檔案首列解析為 Column 名稱。
  • Skip Lines: 可以選擇將檔案中的前幾行跳過不匯入。
  • Separator Character: 選擇 CSV 檔案分隔符號。
  • Explore Timeout: 設定系統連結解析資料來源的 Timeout 時間。若系統連結失敗並於 Status 錯誤訊息中顯示 Explore Timeout 錯誤時,可嘗試調高此參數,延長系統解析時間。