20-newsgroups

The 20 Newsgroups data set

The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups. To the best of my knowledge, it was originally collected by Ken Lang, probably for his Newsweeder: Learning to filter netnews paper, though he does not explicitly mention this collection. The 20 newsgroups collection has become a popular data set for experiments in text applications of machine learning techniques, such as text classification and text clustering.

## Reference: * http://qwone.com/~jason/20Newsgroups/

資料與資源

額外的資訊

欄位
來源 http://qwone.com/~jason/20Newsgroups/
最後更新 十月 11, 2020, 12:13 (CST)
建立 三月 7, 2018, 16:43 (CST)

推薦資料集:


  • 研發及產業訓儲替代役役男申請出境經核准案件統計

    付費方式 免費
    更新頻率 不定期
    研發及產業訓儲替代役役男於服役期間,因公或個人因素可依研發梯代役役男出境作業規定辦理申請出境
  • 市售食品中殘留動物用藥監測結果資料集

    付費方式 免費
    更新頻率 不定期
    本資料集提供市售食品中殘留動物用藥監測結果,藉此提供學術單位、業者、民眾等使用者使用。
  • 南部科學園區管理局採購案件統計資料

    付費方式 免費
    更新頻率 不定期
    提供本局每年採購案件總數、採購案件總金額,包括工程、勞務及財物採購
  • 空氣品質小時值_南投縣_埔里站

    付費方式 免費
    更新頻率 不定期
    南投縣-埔里站小時值
  • 具高鉀血症病史之高血壓病人使用保鉀利尿劑(Potassium-sparing diuretics)或醛固酮拮抗劑(Aldosterone antagoni...

    付費方式 免費
    更新頻率 不定期
    資料來源:保險醫事服務機構醫療服務點數申報資料 分子:分母案件中有追蹤血鉀數值(執行血鉀檢查09022C)的人數 分母:有高血壓診斷且有高血壓用藥病患勾稽病史檔,有高鉀血症病史,且有使用Potassium-sparing diuretics(保鉀型利尿劑)或Aldosterone Antagonist(醛固酮拮抗劑)的人數。 計算公式:(分子/分母)x...