Introduction

Weka 為一個開源 (GNU GPL) 的機器學習軟體,由紐西蘭懷卡托大學 (University of Waikato) 使用 Java 開發,易於跨平台使用(Windows、Mac OS、Linux),透過圖形化介面提供多種機器學習演算法和數據挖掘工具,原生的功能雖然相對較少,但是提供豐富的擴充包(200 多個),用於應付各種需求,並且支援多種格式的數據集(CSV、ARFF、C4.5、LibSVM、LibSVM+ARFF、XLSX、JSON 等),也可以透過 Java API 進行擴充和開發,適合用於學術研究和教學等用途。

※ 目前撰文時的最新穩定版為 Weka 3.8.6,最新的開發版為 Weka 3.9.6。本文所使用的版本為 Weka 3.8.6。

相關資源

安裝

  1. 官方網站下載:Downloading and installing Weka
  2. 下載完成後,安裝很簡單,直接點選安裝檔案,如果沒有要調整路徑的話,直接點選「Next」即可。
圖 1. Weka in Windows 安裝過程。

注:編碼問題

當 Weka 讀取資料中包含中文時,會出現編碼問題,因為 Weka 預設使用 Cp1252 編碼。需另外指定編碼格式。步驟如下:

  1. 開啟 Weka 的安裝資料夾,找到 RunWeka.ini 檔案,通常在 C:\Program Files\Weka-3-8-6
  2. 使用文字編輯器開啟 RunWeka.ini 檔案,並找到以下內容:
    fileEncoding=Cp1252
  3. Cp1252 改為 utf-8,如下所示:
    fileEncoding=utf-8
圖 2. Weka 編碼問題修正操作步驟。

介面

Weka 的主畫面中主要有五個功能區塊,分別為:

  1. Explorer(探索工具):用於數據挖掘和機器學習的主要介面,提供多種功能,包括數據預處理、建模、評估等。
  2. Experimenter(試驗工具):用於進行實驗設計和評估的介面,提供多種功能,包括實驗設計、模型評估、結果分析等。
  3. Knowledge Flow(知識流):用於可視化數據流和處理流程的介面,功能類似於 Explorer,但提供了更直觀的可視化界面,同時支援增量數據處理。
  4. Workbench(工作臺):用於進行數據處理和建模的介面,提供多種功能,包括數據處理、建模、評估等。
  5. Simple CLI(命令列):用於命令列介面的簡單版本,提供基本的命令列操作功能。
圖 3. Weka 主畫面。

而上方功能列也有一些重要的功能,常用的有:

  • Visualize:用於可視化數據的功能,主要透過散點圖的方式呈現數據的分佈以及關聯性。
    • Plot、ROC、TreeVisualizer、GraphVisualizer、BoundaryVisualizer
  • Tools - Package Manager:用於管理 Weka 的擴充包和插件的工具,提供多種功能,包括安裝、卸載、更新等。
圖 4. Weka - Package Manager。

數據集

撰寫中…