當前位置:簡歷模板館>實用文>演講稿>

土壤有機質含量高光譜遙感中的數據挖掘

演講稿 閱讀(2.36W)
土壤有機質含量高光譜遙感中的數據挖掘
    摘要:文章分析了數據挖掘技術在土壤有機質含量高光譜遙感數據分析中的發展歷程以及目前所面臨的問題;
探討了聚類、模糊集、粗集、神經網絡、決策樹等數據挖掘算法在高光譜數據分析中的應用;
展望了數據挖掘技術的應用前景。
 
    關鍵詞:數據挖掘;
高光譜遙感;
算法
 
    數據是客觀世界性質、特徵和狀態的描述,但由於客觀世界的複雜性和在數據產生過程中攜帶了一些和客觀無關的因素的干擾,使得數據產生了與客觀世界不一致的狀況,人們通常把這些干擾稱爲“誤差”,在信息科學中則稱之爲“噪聲”。根據信息理論,數據是由信息和噪聲共同組成的,只有當數據中排除了“噪聲”之後,才能稱爲信息:信息=(數據)-(噪聲或誤差)。在日常應用中,大量的數據未能充分利用這一現象常常被描述爲“數據豐富,但信息貧乏”。爲此,決策者迫切需要從海量數據庫中提取有價值知識的工具,數據挖掘技術正是爲滿足上述要求而產生的。
 
    土壤高光譜遙感數據就是這樣一種情況,在室內土壤高光譜測試過程中,由於可控條件和不可控條件的變化,使得所得結果有一定的差異,如土壤的粒徑差異、測試土樣表面處理方法的不同、測試時幾何條件的差異等都會引起土壤光譜反射係數的不確定。同時,高光譜遙感數據波段衆多,數據量龐大,這些給處理和解譯都帶來了很大困難,而數據挖掘技術能夠很好的解決這種情況。
 
    一、數據挖掘技術的發展
 
    (一)數據挖掘的產生髮展
 
    數據挖掘其實是一個逐漸演變的過程,其思想可以追溯到20世紀70年代。隨着數據庫存儲技術和計算速度提高,科學研究人員意識到,還可以利用機器學習的方式來分析數據。機器學習的過程就是將一些已知的並已被成功解決的問題作爲範例輸入計算機,機器通過學習這些範例總結並生成相應的規則,這些規則具有通用性,使用它們可以解決某一類的問題。隨後,伴隨着神經網絡技術的形成和發展,人們的注意力轉向知識工程。知識工程不同於機器學習那樣給計算機輸入範例,讓它生成出規則,而是直接給計算機輸入已被代碼化的規則,而計算機是通過使用這些規則來解決某些問題。80年代末在美國底特律召開的第11屆國際人工智能聯合會議的專題討論會上首次出現KDD(Knowledge discovery in database)這個術語,人們接受了這個術語,並用KDD來描述整個數據發掘的過程。隨後的KDD國際學術大會研究重點逐漸從發現方法轉向系統應用,並且注重多種發現策略和技術的集成,以及多種學科之間的相互滲透,數據挖掘和知識發現成爲當前計算機科學界的一大熱點。隨着支持數據挖掘技術發展,數據挖掘漸漸成爲成熟的技術,並在實際應用中取得了良好效果。
 
    (二)數據挖掘所面臨的問題
 
    由於數據挖掘時遇到的數據庫種類繁多,且各種數據挖掘方法作用範圍有限,因此採用單一方法難以得到決策所需的各種知識,多方法融合將成爲數據挖掘的發展趨勢。而數據挖掘技術當前所面臨的問題主要有:如何進行降維操作、高維數據索引、典型特徵提取等;
挖掘算法的表達和改進創新;
如何對挖掘產生的規則和模式進行解釋與表達,使其與信息處理的要求相關聯以得到應用,並對挖掘的知識進行客觀、科學的評價,控制知識可靠性和質量,實施有效管理;
針對高光譜遙感信息的特點,對數據挖掘任務的描述、算法功能模塊組織都是其中的關鍵問題。
 
    二、數據挖掘的主要算法
 
    數據挖掘算法很多,結合不同的應用領域又發展了一些新的方法,進一步豐富和發展了數據挖掘的算法體系。數據挖掘可以採用的方法主要包括聚類、空間分析、模糊集、粗集、神經網絡、決策樹等。這些方法都有侷限性,但它們的有機組合具有互補性,多方法融合將成爲數據挖掘的發展趨勢。目前一些具有較好應用效果的方法主要包括:
 
    (一)聚類
 
    聚類是把一組個體按照相似性歸納成若干類別,即“物以類聚”。它的目的是使得屬於同一類別的個體之間的距離儘可能的小,而不同類別上的個體間的距離儘可能的大。在實現其他挖掘任務之前,應用聚類方法可使挖掘精度與效率大大提高。聚類方法包括統計方法、機器學習方法、神經網絡方法和麪向數據庫的方法。由於高光譜遙感信息的海量特點,聚類是一種有效的挖掘算法。通過將信息從光譜維和空間維進行聚類,挖掘隱含在其中的規則和知識,對於解決波段選擇、特徵提取、純淨象元識別等問題,具有明顯的優越性。由於聚類僅是實現對目標的集羣分析,而對不同集羣的屬性和特徵進行挖掘才能取得更好的效果,因此聚類一般要和其他算法結合進行。
 
    (二)人工神經網絡(ANN)
 
    神經網絡是數據挖掘和知識發現非常重要的方法,包括前向神經網絡、徑向基函數神經網絡、反饋神經網絡等已都得到了重視和應用。另一方面,人工神經網絡也在高光譜遙感信息中得到了一些應用。神經網絡常用於兩類問題:分類和迴歸。神經網絡的參數可以比統計方法多很多。由於參數如此之多,參數通過各種各樣的組合方式來影響輸出結果,以至於很難對一個神經網絡表示的模型做出直觀的解釋。實際上神經網絡也正是當作“黑盒”來用的,不用去管“盒子”裏面是什麼,只管用就行了。人工神經網絡有望在高光譜遙感數據挖掘中得到廣泛應用。
 
    (三)粗集理論和模糊理論
 
    在數據挖掘中,從實際系統採集到的數據可能包含各種噪聲,存在許多不確定因素和不完全信息有待處理。傳統的不確定信息處理方法因需要數據的附加信息或先驗知識(難以得到),有時在處理大數據量的數據庫方面無能爲力。粗集作爲一種軟計算方法,可以克服傳統不確定處理方法的不足,並且和它們能有機結合,可望進一步增強對不確定、不完全信息的處理能力。粗集理論中,知識被定義爲對事物的分類能力。這種能力由上近似集、下近似集、等價關係等概念體現。因爲粗集處理的對象是類似二維關係表的信息表(決策表)。目前成熟的關係數據庫管理系統和新發展起來的數據倉庫管理系統,爲粗集的數據挖掘奠定了堅實的基礎。
 
    (四)決策樹
 
    決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。決策樹的基本組成部分爲決策節點、分支和葉子。決策樹中最上面的節點稱爲根節點,是整個決策樹的開始。決策樹的每個節點子節點的個數與決策樹所用的算法有關。每個分支要麼是一個新的決策節點,要麼是樹的結尾,稱爲葉子。在沿着決策樹從上到下遍歷的過程中,在每個節點都會遇到一個問題,對每個節點上問題的不同回答導致不同的分支,最後會到達一個葉子節點。這個過程就是利用決策樹進行分類的過程,利用幾個變量(每個變量對應一個問題)來判斷所屬的類別(最後每個葉子會對應一個類別)。數據挖掘中,決策樹是一種經常要用到的技術,可以用於分析數據,同樣也可以用來作預測。決策樹在高光譜遙感信息分類、典型信息提取等任務中都得到了應用,在高光譜遙感數據挖掘中,決策樹學習可以建立對特定應用敏感的知識集,以指導挖掘過程的進行。
 
    三、發展前景
 
    從目前高光譜遙感信息處理與應用情況來看,高光譜遙感數據挖掘將在智能信息處理和高水平應用方面發揮重要作用,以下對其潛在應用領域進行分析。
 
    (一)典型信息提取與識別
 
    通過對標準地物波譜數據庫、典型高光譜信息源等的挖掘,建立和發現對特定信息、特徵和現象提取有效的規則和知識,以直接應用於目標信息的提取與識別。
 
    (二)定量遙感與遙感反演
 
    高光譜遙感信息是定量遙感如成因礦物學、作物養分監測、植被監測、生態遙感等的基礎,其中隱含的規則和知識也是遙感反演如地面組分反演、陸面溫度反演等的基礎。數據挖掘發現的知識可以建立相應的決策規則和專題知識。
 
    (三)高光譜分類與亞像元分解
 
    分類是遙感應用的重要環節,基於知識的自動分類目前是遙感分類的熱點。基於知識的高光譜遙感分類的基礎是領域知識,而這正是數據挖掘的優勢所在。亞像元分解與混合像元分類是高光譜遙感信息處理的重要內容,數據挖掘在純淨像元提取及分解知識與規則發現方面可以發揮作用。
 
    (四)特徵提取與最優特徵組合選擇
 
    實現面向應用的特徵提取與最優特徵組合對於充分應用高光譜信息、減少信息冗餘、提高處理效率具有重要作用,也是目前高光譜應用中的主要模式之一。隨着研究的深入,可以預言數據挖掘在高光譜遙感信息處理與應用中將可以發揮更加深入和重要的作用,促進高光譜遙感的快速發展和廣泛應用。
 
    參考文獻:
 
    1、Fu L  generation from neural networks[J] Trans onSystems,Man and Cybernetics,1994(8).
    2、Towell G, extraction of refined rules from knowledgebased neural networks[J]ing Learning,1993(1).
    3、袁曾任,盧振中.由神經網絡提取規則的一種方法[J].信息與控制,1997(1).
    4、劉振凱,貴忠華,蔡青.基於神經網絡結構學習的知識求精方法[J].計算機研究與發展,1999(10).
    5、張朝輝.利用神經網絡發現分類規則[J].計算機學報,1999(1).
    6、黃源,蕭嶸,張福炎.神經網絡的規則提取研究[J].計算機研究與發展,1999(9).
    7、Tu Peilei,Chung Jenyao.A new decision2tree classification algorithm for machine learning[C]. In Proceedings of the 1992 IEEE International Conference on Tools for Artificial Intelligence. Arlington , VA ,Quinlan J R. Induction of Decision Trees[M]ine Learning,1986.
    8、劉小虎,李生.決策樹的優化算法[J].軟件學報,1998(10).
    9、洪家榮,丁明峯,李星原等.一種新的決策樹歸納學習算法[J].計算機學報,1995(6).
    10、Schlimmer J C, Fisher D. A case study of incremental concept induction [C] Proceedings of AAAI286,1986.
    11、苗奪謙,王珏.基於粗糙集的多變量決策樹構造方法[J].軟件學報,1997(6).
    12、劉興華.數據挖掘技術及其應用研究[J].遼寧師範大學學報(自然科學版),2002(2).
    13、於金龍,李曉紅,孫立新.連續屬性的整體離散化[J].哈爾濱工業大學學報,2000(3).
    14、李永敏,朱善君,陳湘暉等.根據粗糙集理論進行BP網絡設計的研究[J].系統工程理論與實踐,1999(4).
    (作者單位:湖南農業大學資源環境學院土地資源利用與信息技術專業)