需同意授權

2020 「科技大擂台 與AI對話」_訓練資料集 Formosa Language Understanding Dataset (FLUD)(2/2)

本資料為2020 「科技大擂台 與AI對話」競賽訓練資料,有意申請者可直接下載。

訓練資料分三個壓縮檔,內容如下:

fgc-training-data-1.zip (簡答題+申論題)

1.含746題訓練題庫文本(基礎簡答題493題、進階簡答題240題,以及申論題13題)。
2.包含以下檔案:
 a.FGC_release_A.json(問題)
 b.FGC_release_A_answers.json(標準答案)
 c.簡答題申論題答題規範

fgc-training-data-2.zip (多輪對話訓練資料)

1.多輪對話的比賽方式為模擬商家客服回答顧客問題,資料集內含20個領域的商家多輪對話訓練資料。
2.包含以下檔案:
 a.20個領域的商家資料表(商家資料內容皆為虛構)
 b.20個領域的多輪對話範例腳本
 c.決賽任務型多輪對話測驗說明  

fgc-mock-test.zip (模擬測試資料)

1.含三次模擬測試的題庫文本,文本包含文章、問題、配分及標準答案,每次測試題庫包含基礎簡答題25題、進階簡答題25題,可供開發集(development set)使用。
2.另附formosa-grand-challenge-2020-baseline,baseline版權歸原作者所有,僅供學習研究之用。
3.包含以下檔案:
 a.FGC_mock_A.json
 b.FGC_mock_B.json
 c.FGC_mock_C.json
 d.formosa-grand-challenge-2020-baseline(提供github連結)

fgc-testing-data.zip (簡答題+申論題,正式比賽考題)

1.2020 「科技大擂台 與AI對話」決賽,含50題題庫文本(基礎簡答題23題、進階簡答題23題,以及申論題4題)。
2.包含以下檔案:
 a.FGC_official_final.json(內含問題及標準答案)

*json檔的參數說明:

參數名稱    說明
  DID      文章編號
  DTEXT      文章內容
  QUESTIONS  同一文章的題組
  QID       題目編號
  QTYPE     題目類型
  QTEXT     題目內容
  QSCORE    問題配分(僅FGC_official_final和fgc-mock-test有此參數)
  ANSWER    標準答案

資料與資源

額外的資訊

欄位
作者 科政中心
維護者 科政中心
最後更新 十月 26, 2020, 10:03 (CST)
建立 六月 8, 2020, 15:00 (CST)

推薦資料集:


  • AU_01_中研院具音段標記之中文對話語音資料庫_抽樣資料

    付費方式 免費
    更新頻率 不定期
    使用條款 使用此資料集前,請詳閱下列條款: 資料庫之電子型式,組成資料內容與型式,著作權屬中央研究院原各著做小組,智慧財產權所有權仍屬中研院所有。 資料庫內容之著作權屬原始著作人所有。 牽涉本條款第一項及第二項著作內容之任何引用之商業行為應與著作權所有人另定約規定之。 如有侵犯資料庫著作權或智慧財產權之行為,應由使用者自行負擔法律責任。...
  • 110年度新北市總預算歲入來源別預算總表

    付費方式 免費
    更新頻率 不定期
    1.110年度新北市總預算歲入來源別預算總表 2.單位:新臺幣千元...
  • insight_test_8297

    付費方式 免費
    更新頻率 不定期
  • 林務局所轄自然步道軌跡圖-036_馬里光瀑布步道

    付費方式 免費
    更新頻率 不定期
    提供林務局所轄自然步道軌跡圖-036_馬里光瀑布步道KMZ下載檔案。
  • 台灣電力公司_年度線路損失量(率)

    付費方式 免費
    更新頻率 不定期
    本資料集提供輸電系統及配電系統年度及上一年度線路損失量、線路損失率的實績值以及年度差異比較。