人工神經網絡是一種仿照氮吹儀價格生物神經網絡結構 而建 立的非 線形 預測 模型,是數 據挖 掘中 比較常用的模型與算法。有關人工神經網絡的概念、特征、拓撲結構以及加權參數的確定學 習方法,我們已在第九章作了較詳細的論述。這 里只 是給 出在使 用人 工神經 網絡 時需 要注 意的幾點事項: 第一,神經網絡很難解釋。目前還沒有能對神經網絡做出顯而易見解釋的方法學,因為 在數據的分析處理方面,神經元網絡和統計 方法在 本質 上有 很多差 別。神經 網絡 的參 數要 比統計方法多很多。這么多參數通過各種各樣的 組合 方式來 影響 輸出 結果,以至 于很 難對 一個神經網絡表示的模型做出直觀的解釋。實際 上神經 網絡 也正 是當作“黑盒”來 用的,不 348 第十章 數據挖掘與Agent技術 用去管“盒子”里面是什么,只管用就行了。在大部分情況下,這種限制條件是可以接受的。 第二,神經網絡會學習過度。在訓練神經網 絡時 一定 要恰當 的使 用一些 能嚴 格衡 量神 經網絡的方法,如測試集方法和交叉驗證法等。這
主要是由于神經網絡太靈活、可變參數太 多,如果給足夠的時間,它幾乎可以“記住”任何事情。 第三,除非問題非常簡單,訓練一個神經 網絡可 能需 要相當 長的 時間 才能完 成。當然, 一旦神經網絡建立好了,在運行它做某些預測時速度還是很快的。 第四,建立神經網絡需要做的數據準備 工作量 很大。 有些人 可能 會對神 經網 絡存 在一 些錯誤認識,認為不管用什么數據,神經網絡都能很好的工作并做出準確的預測。這種認識 是很不正確的。要想得到準確度高的模型,必須認真地對數據進行清洗、整理、轉換、選擇等 工作,對任何數據挖掘技術都是這樣,神經網絡尤其注重這一點。比如神經網絡要求所有的 輸入變量只能是0~1(或-1~+1)之間的數值型實數,因 此,對 文本型 數據,必須先做 必要 的映射變換處理之后,才能用作為神經網絡的輸入數據。 2. 決策樹 決策樹是一種展示類似“在什么條件下會 得到 什么 值”這類 規則 的方法。 比如,在 貸款 申請中,要對申請的風險大小做出判斷,圖10.1 所示
是為 了解決 這個 問題而 建立 的一 棵決 策樹,從中可以看到決策樹的基本組成部分包括決策節點、分支和葉子節點。 圖10.1 一棵簡單的決策樹 決策樹中最上面的節點 稱為 根 節點,是 整個 決 策樹 的開 始。本 例中 根節 點 是“收 入 > ¥40000”,對此問題的不同回答產生了“是”和“否”兩個分支。決策樹 中每個 節點的子 節點 個數與決策樹所用的算法有關。如 CART 算法得到的決 策樹每 個節點有 兩個分支,這 種樹 稱為二叉樹。允許節點含有多于兩個子節點的樹稱為多叉樹。每個分支所連接的節點要么 是一個新的決策節點,要么是樹的葉子節點。 數據挖掘中決策樹是一種經常要用到的技術,可以用于對數據進行分析,同樣也可以用 來對某些事情進行 預測,比 如銀 行 職 員可 以 應 用 決 策樹 預 測 放 貸 的風 險。 常 用的 算 法 有