weka使用朴素贝叶斯进行中文文本分类遇到几个错误

做中文文本分类实验,按照教程一步一步做的,报错如下: > java weka.filters.supervised.attribute.Discretize -i data_vsm.arff -o data_D_vsm.arff -c firs Unable to determine structure as arff (Reason: java.io.IOException: premature end of line, read Token[EOL], line 5).
大概意思是:无法确定ARFF文件的结构(原因:java.io.IOException,IO异常:行提前结束,查阅第5行的行结束符找找原因)。
最后一步
在测试集上检验效果

> java weka.classifiers.bayes.NaiveBayes -t data_D_vsm.arff -i -k -d data_vsm_nb.model -c first > data_vsm_nb.model

Finished redirecting output to ‘data_vsm_nb.model’.
大概意思是:按照上面的朴素贝叶斯分类算法将’data_D_vsm.arff’文件运算结果输出到’data_vsm_nb.model’这个文件已经结束。

> java weka.classifiers.bayes.NaiveBayes -l data_vsm_nb.model -T data_vsm_test.arff –c first > data_vsm_NB_r.txt

Weka exception: Can’t open file invalid stream header: 3E206A61.
大概意思:weka异常,无法打开文件,因为文件头异常,具体还得再分析一下。

我写了一篇教程解决这个问题:

weka中文文本分类的试验,成功经验分享

 

以下是原教程链接,有些错误,实验无法成功,但也可以学习参考:
http://www.xuebuyuan.com/1065345.html
http://blog.sina.com.cn/s/blog_4766fd440101iyb0.html
这两个内容差不多,都是用命令行,下面这篇是用gui来操作:
http://blog.csdn.net/lym199286/article/details/47268171

NaiveBayes = 朴素贝叶斯

《weka使用朴素贝叶斯进行中文文本分类遇到几个错误》有一个想法

评论已关闭。