Introduction
Weka 為一個開源 (GNU GPL) 的機器學習軟體,由紐西蘭懷卡托大學 (University of Waikato) 使用 Java 開發,易於跨平台使用(Windows、Mac OS、Linux),透過圖形化介面提供多種機器學習演算法和數據挖掘工具,原生的功能雖然相對較少,但是提供豐富的擴充包(200 多個),用於應付各種需求,並且支援多種格式的數據集(CSV、ARFF、C4.5、LibSVM、LibSVM+ARFF、XLSX、JSON 等),也可以透過 Java API 進行擴充和開發,適合用於學術研究和教學等用途。
※ 目前撰文時的最新穩定版為 Weka 3.8.6,最新的開發版為 Weka 3.9.6。本文所使用的版本為 Weka 3.8.6。
相關資源
- 官方教學資源(英文):
- Blog(布丁布丁吃什麼?,2019):Weka 簡介與實作(繁中)
安裝
- 官方網站下載:Downloading and installing Weka
- 下載完成後,安裝很簡單,直接點選安裝檔案,如果沒有要調整路徑的話,直接點選「Next」即可。

注:編碼問題
當 Weka 讀取資料中包含中文時,會出現編碼問題,因為 Weka 預設使用 Cp1252 編碼。需另外指定編碼格式。步驟如下:
- 開啟 Weka 的安裝資料夾,找到
RunWeka.ini檔案,通常在C:\Program Files\Weka-3-8-6。 - 使用文字編輯器開啟
RunWeka.ini檔案,並找到以下內容:fileEncoding=Cp1252 - 將
Cp1252改為utf-8,如下所示:fileEncoding=utf-8

介面
Weka 的主畫面中主要有五個功能區塊,分別為:
- Explorer(探索工具):用於數據挖掘和機器學習的主要介面,提供多種功能,包括數據預處理、建模、評估等。
- Experimenter(試驗工具):用於進行實驗設計和評估的介面,提供多種功能,包括實驗設計、模型評估、結果分析等。
- Knowledge Flow(知識流):用於可視化數據流和處理流程的介面,功能類似於 Explorer,但提供了更直觀的可視化界面,同時支援增量數據處理。
- Workbench(工作臺):用於進行數據處理和建模的介面,提供多種功能,包括數據處理、建模、評估等。
- Simple CLI(命令列):用於命令列介面的簡單版本,提供基本的命令列操作功能。

而上方功能列也有一些重要的功能,常用的有:
- Visualize:用於可視化數據的功能,主要透過散點圖的方式呈現數據的分佈以及關聯性。
- Plot、ROC、TreeVisualizer、GraphVisualizer、BoundaryVisualizer
- Tools - Package Manager:用於管理 Weka 的擴充包和插件的工具,提供多種功能,包括安裝、卸載、更新等。

數據集
撰寫中…