需同意授權

TE_03_漢語平衡語料庫_抽樣資料

使用條款

使用此資料集前,請詳閱下列條款:

  • 資料庫之電子型式,組成資料內容與型式,著作權屬中央研究院原各著做小組,智慧財產權所有權仍屬中研院所有。

  • 資料庫內容之著作權屬原始著作人所有

  • 牽涉本條款第一項及第二項著作內容之任何引用之商業行為應與著作權所有人另定約規定之。

  • 如有侵犯資料庫著作權或智慧財產權之行為,應由使用者自行負擔法律責任。

  • 如因使用資料庫而發生任何損害,原著作權人及授權單位(國網中心)不負任何損害賠償責任,使用人願意放棄向著作權人及授權單位索賠之權利。

  • 用戶如有因使用此資料而發表相關學術研究成果,須於文中載明。

  • 抽樣資料集開放公開使用,需先註冊並同意使用協議。

若使用者使用本資料集,即視為同意上述條款並履行相關法律義務。

中央研究院漢語平衡語料庫 簡介

中央研究院漢語平衡語料庫(簡稱 Sinica Corpus)第 4.0 版,為一包含一千多萬目詞的帶標記平衡語料庫。本語料庫中每個文句都依詞斷開,並標示詞類標記。語料的蒐集也盡量做到平衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為 1981 年到 2007 年之間的文章。

其他補充說明(2022/9)

由於授權到期,故僅提供平台上的抽樣資料,已經不能再提供完整資料集。抽樣資料部份,目前僅需要申請 NCHC iServcie 帳號,並點選『同意授權』後即可下載。

若有購買或商業需求,可向中華民國計算語言學學會洽詢。

  • 窗口:黃琪
  • 學會電話:02-27883799*1502
  • 傳真:02-27881638
  • 電子信箱:aclclp@aclclp.org.tw

資料與資源

額外的資訊

欄位
作者 sinicaedutw
最後更新 九月 30, 2025, 09:28 (CST)
建立 二月 19, 2019, 10:35 (CST)
DOI 10.30193/scidm-ds-d4q9d1c

Citation


推薦資料集:


  • 花蓮縣拒毒標章商家名冊

    付費方式 免費
    更新頻率 不定期
    花蓮縣拒毒標章商家名冊
  • 需申請審核

    Synthetic and Phantom MR Images for Determining Deformable Image Registration...

    付費方式 免費
    更新頻率 不定期
    Two sets of images were created to evaluate deformable image registration accuracy. The first set contains CT, T1-, and T2-weighted images from a porcine phantom. The phantom...
  • 原住民族歲時祭儀放假日期

    付費方式 免費
    更新頻率 不定期
    一、依據內政部於99年11月2日修正發布「紀念日及節日實施辦法」辦理公告原住民族歲時祭儀,各該原住民族放假1日。 二、凡具有原住民身分者,都可以在所屬族群的歲時祭儀日,持戶籍謄本或戶口名簿等足資證明其族別之文件,向工作或就讀單位申請放假1日。三、有關阿美族、賽夏族及噶瑪蘭族,先行公告舉辦期間,日期確定後分別另行公告。
  • 臺中市警察局103年12月份交通事故資料

    付費方式 免費
    更新頻率 不定期
    臺中市警察局103年12月份交通事故資料
  • 發展遲緩兒童早期療育服務

    付費方式 免費
    更新頻率 不定期
    發展遲緩兒童早期療育服務