A.缺失值處理 B.噪聲數(shù)據(jù)清除 C.一致性檢查 D.重復(fù)數(shù)據(jù)記錄處理
20Newsgroups數(shù)據(jù)集是機(jī)器學(xué)習(xí)研究中常用的標(biāo)準(zhǔn)數(shù)據(jù)集,它使用20個(gè)Usenet新聞單位上幾個(gè)月發(fā)布的18828個(gè)消息,共18828個(gè)文件,如果對(duì)該數(shù)據(jù)集使用mahout進(jìn)行文本分類(lèi),分類(lèi)后得到的混淆矩陣中,部分結(jié)果如下圖所示:圖中第一行是類(lèi)別名稱(chēng),第二行是屬于a類(lèi)的分類(lèi)情況(a類(lèi)文本原有168篇),第三行是屬于b類(lèi)的分類(lèi)情況(b類(lèi)文本原有180篇),第四行是c類(lèi)的分類(lèi)情況(c類(lèi)文本原有189篇),根據(jù)各行的分類(lèi)情況,以下分析正確的是()
A.分類(lèi)算法對(duì)a類(lèi)文本分類(lèi)情況較好 B.分類(lèi)算法對(duì)c類(lèi)文本分類(lèi)情況較好 C.分類(lèi)算法對(duì)b類(lèi)文本分類(lèi)情況較好 D.分類(lèi)算法對(duì)c類(lèi)文本分類(lèi)情況較差
A.Kdfka B.Flume C.Twitter D.Zero