需同意授權

2020 「科技大擂台 與AI對話」_訓練資料集 Formosa Language Understanding Dataset (FLUD)(2/2)

本資料為2020 「科技大擂台 與AI對話」競賽訓練資料,有意申請者可直接下載。

訓練資料分三個壓縮檔,內容如下:

fgc-training-data-1.zip (簡答題+申論題)

1.含746題訓練題庫文本(基礎簡答題493題、進階簡答題240題,以及申論題13題)。
2.包含以下檔案:
 a.FGC_release_A.json(問題)
 b.FGC_release_A_answers.json(標準答案)
 c.簡答題申論題答題規範

fgc-training-data-2.zip (多輪對話訓練資料)

1.多輪對話的比賽方式為模擬商家客服回答顧客問題,資料集內含20個領域的商家多輪對話訓練資料。
2.包含以下檔案:
 a.20個領域的商家資料表(商家資料內容皆為虛構)
 b.20個領域的多輪對話範例腳本
 c.決賽任務型多輪對話測驗說明  

fgc-mock-test.zip (模擬測試資料)

1.含三次模擬測試的題庫文本,文本包含文章、問題、配分及標準答案,每次測試題庫包含基礎簡答題25題、進階簡答題25題,可供開發集(development set)使用。
2.另附formosa-grand-challenge-2020-baseline,baseline版權歸原作者所有,僅供學習研究之用。
3.包含以下檔案:
 a.FGC_mock_A.json
 b.FGC_mock_B.json
 c.FGC_mock_C.json
 d.formosa-grand-challenge-2020-baseline(提供github連結)

fgc-testing-data.zip (簡答題+申論題,正式比賽考題)

1.2020 「科技大擂台 與AI對話」決賽,含50題題庫文本(基礎簡答題23題、進階簡答題23題,以及申論題4題)。
2.包含以下檔案:
 a.FGC_official_final.json(內含問題及標準答案)

*json檔的參數說明:

參數名稱    說明
  DID      文章編號
  DTEXT      文章內容
  QUESTIONS  同一文章的題組
  QID       題目編號
  QTYPE     題目類型
  QTEXT     題目內容
  QSCORE    問題配分(僅FGC_official_final和fgc-mock-test有此參數)
  ANSWER    標準答案

資料與資源

額外的資訊

欄位
作者 科政中心
維護者 科政中心
最後更新 2020年10月26日, 凌晨2點03分 (UTC+00:00)
建立 2020年6月8日, 早上7點00分 (UTC+00:00)

推薦資料集:


  • AU_01_中研院具音段標記之中文對話語音資料庫_抽樣資料

    付費方式 免費
    更新頻率 不定期
    使用條款 使用此資料集前,請詳閱下列條款: 資料庫之電子型式,組成資料內容與型式,著作權屬中央研究院原各著做小組,智慧財產權所有權仍屬中研院所有。 資料庫內容之著作權屬原始著作人所有。 牽涉本條款第一項及第二項著作內容之任何引用之商業行為應與著作權所有人另定約規定之。 如有侵犯資料庫著作權或智慧財產權之行為,應由使用者自行負擔法律責任。...
  • 最近二年產險漁船保險賠款率統計— (承保年度制)—按公司

    付費方式 免費
    更新頻率 不定期
    最近二年產險漁船保險賠款率統計— (承保年度制)—按公司(保發中心)
  • 屏東縣使用牌照稅徵績表(滯納期滿)

    付費方式 免費
    更新頻率 不定期
    屏東縣使用牌照稅徵績表(109年滯納期滿)(截至109年6月17日)。 單位:輛:新臺幣_元
  • 110年度臺東縣達仁鄉段代碼表

    付費方式 免費
    更新頻率 不定期
    臺東縣達仁鄉段代碼表
  • 新北市市民活動中心資料-樹林

    付費方式 免費
    更新頻率 不定期
    提供各區市民活動中心名稱及地址等相關資料。-樹林