數(shù)據(jù)挖掘就是從龐大的數(shù)據(jù)庫(kù)中抽取轉(zhuǎn)換分析一些潛在規(guī)律和價(jià)值,從中獲取決策的關(guān)鍵信息和有用知識(shí)。分析方法是數(shù)據(jù)挖掘的核心工作,通過科學(xué)可靠的算法才能實(shí)現(xiàn)數(shù)據(jù)的挖掘,找出數(shù)據(jù)中潛在的規(guī)律。
不同的分析方法將解決不同類型的問題,在現(xiàn)實(shí)中針對(duì)不同的分析目標(biāo),找出相對(duì)應(yīng)的方法常用的分析方法聚類分析聚類分析就是將物理或抽象對(duì)象的進(jìn)行分組,然后組成為由類似或相似的對(duì)象組成的多個(gè)分類的分析過程,。
這不同于分類,因?yàn)樗鼰o(wú)法獲知對(duì)象的屬性。物以類聚,人以群分,通過聚類來分析事物之間類聚的潛在規(guī)律。聚類分析廣泛運(yùn)用于心理學(xué)統(tǒng)計(jì)學(xué),注漿管生物學(xué)市場(chǎng)銷售數(shù)據(jù)識(shí)別機(jī)器智能學(xué)等領(lǐng)域。聚類分析根據(jù)隸屬度的取值范圍可分為硬聚類和模糊聚類兩種方法。
硬聚類就是將對(duì)象劃分到距離聚類的類,非此即彼,也就是說屬于一類,就必然不屬于另一類。模糊聚類就是根據(jù)隸屬度的取值范圍的大小差異來劃分類,一個(gè)樣本可能屬于多個(gè)類。常見的聚類算法主要有密度聚類算法層次格聚類算法模型聚類算法等分類和分類和數(shù)值是問題的兩種主要類型。
分類是分類離散無(wú)序的標(biāo) ,面則是建立連續(xù)值函數(shù)模型。分類是數(shù)據(jù)挖掘的重要基礎(chǔ),它針對(duì)已知的訓(xùn)練數(shù)據(jù)集出來的特性,每個(gè)類別的描述或?qū)傩詠順?gòu)造相應(yīng)的分類器或者分類。分類是一種有的學(xué)過程,它是根據(jù)訓(xùn)練數(shù)據(jù)集發(fā)現(xiàn)準(zhǔn)確描述來劃分類別的。