1 引言
數(shù)字革命已使數(shù)字化信息更容易獲得和儲(chǔ)存。隨著計(jì)算機(jī)軟硬件的發(fā)展和大量的商務(wù)活動(dòng),海量數(shù)據(jù)被收集在數(shù)據(jù)庫(kù)中,這樣的數(shù)據(jù)迅猛增加,導(dǎo)致傳統(tǒng)的統(tǒng)計(jì)技術(shù)和數(shù)據(jù)管理工具不足以分析這些海量數(shù)據(jù)。因?yàn)樵谠S多領(lǐng)域,數(shù)據(jù)分析往往是一個(gè)人工過程。一名或多名分析師應(yīng)對(duì)數(shù)據(jù)非常熟悉,并通過運(yùn)行統(tǒng)計(jì)軟件提供出總結(jié)報(bào)告。實(shí)際上,分析師充當(dāng)?shù)氖请娔X處理程序,然而,在數(shù)據(jù)規(guī)模和維數(shù)不斷增加時(shí),此種軟件程序?qū)⒑芸毂罎ⅰ?shù)據(jù)和維數(shù)分別為十億和千位的數(shù)據(jù)庫(kù)會(huì)很普通,當(dāng)操作、探究和推測(cè)所需數(shù)據(jù)的規(guī)模超出人們的能力時(shí),人們需依靠計(jì)算機(jī)自動(dòng)操作技術(shù)。要實(shí)現(xiàn)這種技術(shù),急需一種能夠智能地、自動(dòng)地把數(shù)據(jù)轉(zhuǎn)換成有用信息和知識(shí)的技術(shù)和工具。數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉,并能從海量的、潛在的、隱含的、事先未知的數(shù)據(jù)中,提取人們感興趣的有用信息和知識(shí)的過程。提取的知識(shí)表示為概念、規(guī)則、規(guī)律、模式、可視化等。它利用自動(dòng)化工具及成熟算法從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏的模型和結(jié)構(gòu)。數(shù)據(jù)挖掘結(jié)果被描述出來,如發(fā)現(xiàn)能描述數(shù)據(jù)的令人感興趣的模型,基于有用數(shù)據(jù)預(yù)測(cè)模型行為等。軟計(jì)算是方法論的集合,這些方法集互相協(xié)作,并以一種形式或其它某種形式為現(xiàn)實(shí)中的模糊情況提供靈活信息處理功能[1]。它的目的是為了獲得易處理的、粗糙的、低成本的解決方法而對(duì)不確定的數(shù)據(jù)進(jìn)行處理。遵從的原則是以追求近似解決模糊/精確問題,并低成本地設(shè)計(jì)解決方案。軟計(jì)算方法主要包括模糊集、遺傳算法、神經(jīng)網(wǎng)絡(luò)、粗糙集等,已經(jīng)廣泛應(yīng)用于數(shù)據(jù)挖掘中。模糊集是對(duì)處理不確定性概念及其推理機(jī)制的過程,神經(jīng)網(wǎng)絡(luò)和粗糙集常被用來分類,遺傳算法包括最優(yōu)解和搜索過程,像問題最優(yōu)解和樣本選擇。其它方法還有決策樹,也廣泛用于數(shù)據(jù)挖掘領(lǐng)域。本文對(duì)主要軟計(jì)算方法做了系統(tǒng)性的闡述,并著重強(qiáng)調(diào)了不同軟計(jì)算方法在數(shù)據(jù)挖掘中的應(yīng)用情況。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘被認(rèn)為是一種有效的、新穎的、用途廣闊的,并最終能理解數(shù)據(jù)模型的過程。正確高效的實(shí)施數(shù)據(jù)挖掘是從這些海量的、以不同形式存儲(chǔ)的數(shù)據(jù)資料中發(fā)現(xiàn)有價(jià)值的信息或關(guān)鍵知識(shí),從而確保人們獲得所需要的信息和規(guī)律,以制定解決方案。
(1)數(shù)據(jù)清理:消除噪聲或不一致的數(shù)據(jù)。
(2)數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起。
(3)數(shù)據(jù)選擇:從數(shù)據(jù)庫(kù)中檢索與分析任務(wù)相關(guān)的數(shù)據(jù)。
(4)數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式。
(5)數(shù)據(jù)挖掘:使用智能方法提取數(shù)據(jù)模式。
(6)模式評(píng)估:根據(jù)某種興趣度度量,識(shí)別表示知識(shí)的價(jià)值的模式。
(7)知識(shí)表示:使用可視化和知識(shí)表示技術(shù),展現(xiàn)挖掘的知識(shí)或信息。
能挖掘到最好的模型與高效的挖掘數(shù)據(jù)規(guī)模是不可分的。多數(shù)原因在于擴(kuò)大數(shù)據(jù)范圍,常常也會(huì)提高分類的準(zhǔn)確度,在大多數(shù)情況下,當(dāng)數(shù)據(jù)規(guī)模小、有噪聲、特征多時(shí)準(zhǔn)確率就會(huì)降低;再有,大數(shù)據(jù)集的出現(xiàn)暗示著算法也在不斷的發(fā)展。大數(shù)據(jù)集也會(huì)預(yù)示時(shí)間和空間的復(fù)雜程度;最后,挖掘的效果不一定完全取決于算法。
3 數(shù)據(jù)挖掘中的軟計(jì)算方法
目前,已有多種軟計(jì)算方法被用來處理數(shù)據(jù)挖掘所面臨的挑戰(zhàn)。軟計(jì)算方法主要包括模糊邏輯、神經(jīng)網(wǎng)絡(luò)、遺傳算法和粗糙集等。這些方法各具優(yōu)勢(shì),與傳統(tǒng)技術(shù)相比,它能使系統(tǒng)更加智能化,讓人理解性更強(qiáng),且成本更低。
3.1 模糊邏輯軟計(jì)算方法
模糊邏輯是最早、應(yīng)用最廣泛的軟計(jì)算方法,模糊邏輯的發(fā)展導(dǎo)致了軟計(jì)算方法的出現(xiàn),模糊集技術(shù)在數(shù)據(jù)挖掘領(lǐng)域占有重要地位,多數(shù)數(shù)據(jù)瀏覽方式都是通過模糊集理論來完成。數(shù)據(jù)挖掘中的數(shù)據(jù)分析經(jīng)常同時(shí)分析不同種數(shù)據(jù),即符號(hào)數(shù)據(jù)和數(shù)字?jǐn)?shù)據(jù)。Pedrycz[2]討論了一些結(jié)構(gòu)化和模糊化的知識(shí)發(fā)現(xiàn),確定了數(shù)據(jù)挖掘和模糊模型間的聯(lián)系。隨著技術(shù)的發(fā)展,模糊集被認(rèn)為是數(shù)據(jù)挖掘的另一種不同功能方法:
聚類:數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中,挖掘出用戶感興趣的知識(shí)。模糊集有很強(qiáng)的搜索能力,尤其是數(shù)據(jù)中的語(yǔ)氣詞匯,它對(duì)發(fā)現(xiàn)的結(jié)構(gòu)感興趣,這會(huì)幫助發(fā)現(xiàn)定性/半定性數(shù)據(jù)的依賴度。在數(shù)據(jù)挖掘中,它對(duì)發(fā)現(xiàn)的結(jié)構(gòu)感興趣,這會(huì)幫助阻止搜到無(wú)用和微不足道的知識(shí)。研究者為此發(fā)展了模糊聚類算法。Russell和Lodwick[3]在挖掘通訊市場(chǎng)領(lǐng)域時(shí)探索出了模糊聚類。在數(shù)據(jù)挖掘中取得有用信息是重要的,因?yàn)橛刑嗟膶傩砸紤],多數(shù)無(wú)指導(dǎo)的數(shù)據(jù)挖掘方法,首先是通過興趣度來取得有用信息的。Mazlack[4]建議消減與要求不協(xié)調(diào)的屬性來縮減數(shù)據(jù)集。軟方法用來處理不準(zhǔn)確的數(shù)據(jù)時(shí),它通過消減與要求不協(xié)調(diào)的屬性來更好地發(fā)現(xiàn)有用的信息,任務(wù)就是通過去除無(wú)興趣屬性來找到有凝聚性和可理解性的知識(shí),不活躍的值通過所要求的粒度來處理。
協(xié)作規(guī)則:數(shù)據(jù)挖掘重要的一點(diǎn)是協(xié)作規(guī)則的發(fā)現(xiàn),協(xié)作規(guī)則描述了不同屬性間的相互關(guān)系。布爾協(xié)作包括二元屬性,普通協(xié)作包括最重要的屬性,與量有關(guān)的協(xié)作包括能呈現(xiàn)量值或定值的屬性。模糊技術(shù)的應(yīng)用已經(jīng)成為數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵組成部分之一。Wei 和Chen[5]用模糊分類開拓了普通協(xié)作規(guī)則,模糊分類用非周期性曲線來表示。當(dāng)計(jì)算支持度和置信度時(shí),項(xiàng)目屬于哪類需進(jìn)行考慮。Au 和Chan[6]利用關(guān)系數(shù)據(jù)庫(kù)中觀測(cè)和期望模糊協(xié)作屬性間的差距來進(jìn)行調(diào)整,基于詞語(yǔ)來表示發(fā)現(xiàn)的規(guī)則和期望,而不是把與量有關(guān)的屬性分成幾段,并不需設(shè)置閾值,量值能直接從規(guī)則中提取;語(yǔ)言表達(dá)法能發(fā)現(xiàn)更自然和人性化的規(guī)則;算法能發(fā)現(xiàn)肯定的和否定的規(guī)則,也能處理缺失的值,但模糊技術(shù)的使用隱藏了數(shù)字量的間隔,會(huì)引起噪聲的復(fù)原。此算法己應(yīng)用到PBX數(shù)據(jù)庫(kù)系統(tǒng)和工業(yè)企業(yè)的數(shù)據(jù)庫(kù)。
功能依賴度:模糊邏輯在關(guān)系數(shù)據(jù)庫(kù)中通過功能依賴度來進(jìn)行分析,模糊推論概括了不準(zhǔn)確和準(zhǔn)確的推論。相似的、模糊的關(guān)系數(shù)據(jù)庫(kù)概括了那些支持模糊信息存儲(chǔ)和恢復(fù),既優(yōu)秀和不確切的部分。推論分析常常應(yīng)用在不確切的、模糊的關(guān)系數(shù)據(jù)庫(kù)上,這增加了其在應(yīng)用領(lǐng)域的范圍,它包括數(shù)據(jù)挖掘和數(shù)據(jù)庫(kù)安全系統(tǒng)。自從功能依賴度可用緊密的格式來表達(dá)關(guān)于實(shí)時(shí)領(lǐng)域?qū)傩缘臄?shù)據(jù)庫(kù)時(shí),它就成為數(shù)據(jù)挖掘的用武之地。這些屬性能在許多領(lǐng)域應(yīng)用,如工業(yè)和咨詢最優(yōu)化。
數(shù)據(jù)概化:概化發(fā)現(xiàn)是數(shù)據(jù)挖掘重要部分之一。它用可理解的信息來表達(dá)數(shù)據(jù)庫(kù)中最重要的部分,并提供給用戶。
大數(shù)據(jù)集的語(yǔ)言概化通過有效的程度來獲得,參考的標(biāo)準(zhǔn)內(nèi)容在挖掘任務(wù)中。系統(tǒng)由概述、一致性程度真實(shí)和有效性組成。已經(jīng)發(fā)現(xiàn)的最有興趣的語(yǔ)言概化并不瑣碎,卻很人性化。實(shí)際上,它并不能自動(dòng)地進(jìn)行概化,需要人的操作。Kacprzyk和Zadrozny[7]發(fā)展了功能依賴度,語(yǔ)言概化使用了自然和可理解性的詞匯,它支持模糊元素,包括屬性間模糊的、重要的相互作用。首先,用戶必須制定概化興趣度,然后系統(tǒng)從數(shù)據(jù)庫(kù)中獲得記錄,并計(jì)算每個(gè)概化的有效性,最后,選擇最適合的語(yǔ)言概化。此方法通過網(wǎng)絡(luò)瀏覽器已用在因特網(wǎng)上。模糊值、模糊聯(lián)系和語(yǔ)言量都通過JAVA來定義。
Chiang[8]在挖掘時(shí)間序列數(shù)據(jù)時(shí)使用了模糊語(yǔ)言概化。在顯示工具中,系統(tǒng)提供用戶預(yù)挖掘的數(shù)據(jù)庫(kù),并決定什么樣的知識(shí)能被挖掘。模型被用來預(yù)測(cè)包括CPU和存儲(chǔ)單元在內(nèi)的不同資源。
3.2 神經(jīng)網(wǎng)絡(luò)軟計(jì)算方法
因?yàn)樯窠?jīng)網(wǎng)絡(luò)的黑箱問題,它先前被認(rèn)為不適合應(yīng)用于數(shù)據(jù)挖掘,且在符號(hào)格式中,它并不能獲得有用信息,但卻適合進(jìn)行解釋。近年來,挖掘訓(xùn)練過的網(wǎng)絡(luò)中的嵌入知識(shí),已廣泛地應(yīng)用于數(shù)據(jù)挖掘中。它對(duì)屬性或逐個(gè)或合并地進(jìn)行判別,這對(duì)于決策或分類是非常重要的。它對(duì)數(shù)據(jù)挖掘的貢獻(xiàn)是在規(guī)則提取和自組織性上。
規(guī)則提取:一般來說,規(guī)則提取算法首要的輸入連接是訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)集節(jié)點(diǎn)的連接。一個(gè)或多個(gè)隱藏的輸出單元會(huì)自動(dòng)地獲得規(guī)則,合并后可得到更多可理解的規(guī)則集,這些規(guī)則也能應(yīng)用在新領(lǐng)域。神經(jīng)網(wǎng)絡(luò)應(yīng)用主要在并行和數(shù)據(jù)搜索最優(yōu)解方面。在網(wǎng)絡(luò)訓(xùn)練達(dá)到準(zhǔn)確率要求后,修剪網(wǎng)絡(luò)節(jié)點(diǎn),分析網(wǎng)絡(luò)隱藏單元的價(jià)值,最進(jìn)行分類,此模式適合于有海量數(shù)據(jù)領(lǐng)域。
自組織性:數(shù)據(jù)挖掘最大挑戰(zhàn)之一是組織性和檔案文件的取得。Kohonen[9]論證了利用有一百多萬(wàn)個(gè)節(jié)點(diǎn)的自組織映射來劃分近七百萬(wàn)份500維特征向量的抽象文件。
回歸:神經(jīng)網(wǎng)絡(luò)也用在變量分類和回歸任務(wù)上。Lee和 Liu[10]利用神經(jīng)網(wǎng)絡(luò)分類精度高、魯棒性強(qiáng)等優(yōu)點(diǎn),做出關(guān)于熱帶龍卷風(fēng)軌跡的模型。
3.3 神經(jīng)-模糊軟計(jì)算方法
神經(jīng)-模糊計(jì)算結(jié)合了神經(jīng)網(wǎng)絡(luò)和模糊兩種方法,建立了更強(qiáng)的智能決策系統(tǒng),它把神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),如并行性、魯棒性和學(xué)習(xí)性融入系統(tǒng)中,而模型中不確定、模糊的知識(shí)可以利用模糊邏輯來解決。
神經(jīng)網(wǎng)絡(luò)被用來提取更多的自然規(guī)則,模糊多層感知器MLP[11]和模糊Kohonen網(wǎng)絡(luò)[12]就使用語(yǔ)言規(guī)則概括和推論,除了在數(shù)量、語(yǔ)言、集合形式以外,輸入也可能是不完全的,輸入向量用語(yǔ)言形式分成低、中和高,用來相應(yīng)每個(gè)輸入特征。模型能夠基于完整的或部分信息進(jìn)行推論,為用戶找到那些能進(jìn)行決策的關(guān)鍵的未知輸入量,用IF THEN語(yǔ)句來進(jìn)行表達(dá)。
在執(zhí)行中,訓(xùn)練網(wǎng)絡(luò)中的節(jié)點(diǎn)和物體間的連接是必須的。挖掘規(guī)則的標(biāo)準(zhǔn)對(duì)輸出決策是有影響的。Zhang[13]設(shè)計(jì)了一種粒度神經(jīng)網(wǎng)絡(luò)來處理數(shù)字量數(shù)據(jù)庫(kù)中的粒度知識(shí)。網(wǎng)絡(luò)能學(xué)習(xí)輸入和輸出間的粒度聯(lián)系,并預(yù)測(cè)新的聯(lián)系。低水平的粒度數(shù)據(jù)能濃縮成高水平的知識(shí)。基于網(wǎng)絡(luò)的神經(jīng)模糊知識(shí)能概括肯定的和否定的規(guī)則并驗(yàn)證是否能達(dá)到?jīng)Q策。當(dāng)從數(shù)據(jù)集中提取領(lǐng)域知識(shí)時(shí),分類信息和模式的分配都要被考慮進(jìn)去,模糊間隔和語(yǔ)言集也被使用。網(wǎng)絡(luò)知識(shí)的提取需使用生長(zhǎng)或剪枝技術(shù)。基于網(wǎng)絡(luò)的知識(shí)得到的越早,得出的規(guī)則也就更豐富。
3.4 遺傳算法
遺傳算法是可調(diào)節(jié)的、魯棒的、有效率的搜索方法,它適應(yīng)于搜索大空間集。它相對(duì)數(shù)據(jù)挖掘的標(biāo)準(zhǔn)來優(yōu)化功能,并達(dá)到搜索最優(yōu)解的目的。從給定目標(biāo)集中挖掘目的信息的MASSON系統(tǒng)已受到歡迎,而從目標(biāo)集中找到普遍存在的特征卻是一個(gè)問題。遺傳程序被用來進(jìn)行交叉、變異和選擇。遺傳算法也可用在多媒體數(shù)據(jù)庫(kù)中對(duì)復(fù)雜的數(shù)據(jù)分類及自動(dòng)地挖掘多媒體數(shù)據(jù)。
遺傳算法具有計(jì)算簡(jiǎn)單,優(yōu)化效果好的特點(diǎn),它在處理組合優(yōu)化問題方面有一定的優(yōu)勢(shì),可用于聚類分析等。遺傳算法作為一種有效的全局搜索方法,從產(chǎn)生至今不斷擴(kuò)展應(yīng)用領(lǐng)域,同時(shí)應(yīng)用實(shí)踐又促進(jìn)了遺傳算法的發(fā)展和完善。Nada[14]利用遺傳算法來發(fā)現(xiàn)有用規(guī)則,不同的規(guī)則能預(yù)測(cè)不同的目標(biāo)屬性。具有高信息增益的屬性分類是好的,當(dāng)考慮屬性的相互作用時(shí),具有低信息增益的屬性的相互聯(lián)系能更加緊密,這個(gè)現(xiàn)象與規(guī)則興趣度有關(guān),換句話說,目標(biāo)屬性的值越小,預(yù)測(cè)規(guī)則的興趣度越大。Nada試圖發(fā)現(xiàn)的是一些有興趣的規(guī)則,而不是大量精確的規(guī)則。
3.5 粗糙集軟計(jì)算方法
粗糙集理論由波蘭邏輯學(xué)家Pawlak教授在20世紀(jì)80年代提出,是一種處理含糊和不確定問題的新型數(shù)學(xué)工具,其出發(fā)點(diǎn)是根據(jù)目前已有的對(duì)給定問題的知識(shí)將問題的論域進(jìn)行劃分,然后對(duì)劃分的每一部分確定其對(duì)某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分別用三個(gè)近似集合來表示為正域、負(fù)域和邊界。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí)和潛在的規(guī)律。同時(shí),粗糙集理論在處理大數(shù)據(jù)量,消除冗余信息等方面有著良好的效果,因此廣泛應(yīng)用于數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理、規(guī)則生成等方面[15]。但是,由于粗糙集理論存在對(duì)錯(cuò)誤描述的確定性機(jī)制過于簡(jiǎn)單,而且在約簡(jiǎn)的過程中缺乏交互驗(yàn)證功能,因此,在數(shù)據(jù)存在噪聲時(shí),其結(jié)果往往不穩(wěn)定,精度也不高。針對(duì)粗糙集理論應(yīng)用于數(shù)據(jù)挖掘時(shí)存在的問題,文獻(xiàn)[16]提出了一種融合粗糙集理論和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘新方法,應(yīng)用于大型數(shù)據(jù)庫(kù)的分類規(guī)則挖掘。其主要思想是首先由粗糙集理論對(duì)數(shù)據(jù)庫(kù)進(jìn)行初步約簡(jiǎn),然后借助于神經(jīng)網(wǎng)絡(luò)在自學(xué)習(xí)過程中完成對(duì)數(shù)據(jù)庫(kù)的進(jìn)一步屬性約簡(jiǎn),并過濾數(shù)據(jù)中的噪聲數(shù)據(jù),最后由粗糙集理論對(duì)約簡(jiǎn)后的數(shù)據(jù)庫(kù)進(jìn)行規(guī)則抽取,得到最終的挖掘知識(shí)。
3.6 混合方法
Banerjee[17]利用粗糙集、神經(jīng)網(wǎng)絡(luò)和模糊邏輯相結(jié)合的方法設(shè)計(jì)了數(shù)據(jù)挖掘系統(tǒng),其中用粗糙集方法在決策表中進(jìn)行約簡(jiǎn)。而用模糊集方法挖掘出未經(jīng)加工的知識(shí),最后由神經(jīng)網(wǎng)絡(luò)根據(jù)依賴度進(jìn)行取舍。George和Srikanth[18]應(yīng)用了模糊與遺傳算法相結(jié)合的方法,其中遺傳算法用來決定選取最適當(dāng)?shù)臄?shù)據(jù)。Kiem和Phul[19]用粗糙集、神經(jīng)網(wǎng)絡(luò)和遺傳算法相結(jié)合的方法來對(duì)大數(shù)據(jù)庫(kù)進(jìn)行聚類。研究表明,混合式數(shù)據(jù)挖掘方法具有更好的特性。
4 結(jié)論
數(shù)據(jù)挖掘是一個(gè)年輕而又活躍的研究領(lǐng)域,目前面臨的問題是缺少對(duì)基礎(chǔ)理論和應(yīng)用技術(shù)方面的研究。數(shù)據(jù)挖掘中經(jīng)常遇到的技術(shù)難題有:大量的數(shù)據(jù)集及其高維:巨大數(shù)據(jù)集為挖掘出模型提供了空間,但也增加了數(shù)據(jù)挖掘算法挖掘到無(wú)效模型的幾率;評(píng)估統(tǒng)計(jì)的重要性:挖掘的數(shù)據(jù)一般是巨大的且對(duì)分配資源是有效的,所以規(guī)劃和調(diào)查對(duì)于模型設(shè)計(jì)是非常重要的;理解模型:發(fā)現(xiàn)人類所不能理解的模型是很重要的,解決方法是規(guī)則結(jié)構(gòu)化、數(shù)據(jù)和知識(shí)可視化等。隨著數(shù)據(jù)挖掘理論研究的不斷深入,數(shù)據(jù)挖掘的工程應(yīng)用領(lǐng)域?qū)?huì)更加廣泛。
參考文獻(xiàn)
1.L. A. Zadeh. Fuzzy logic, neural networks, and soft computing, Commun. ACM, Vol. 37, pp. 77-84, 1999.
2. W. Pedrycz, Fuzzy set technology in knowledge discovery, Fuzzy Sets Syst, Vol. 98, pp. 279-290, 2001.
3. W. Pedrycx, Conditional fuzzy c-means, Pattern Recognition Lett. Vol. 17, pp. 625-632, 2000.
4. L. J. Mazlack, Softly focusing on data, in Proc. NAFIPS99, New York, June 1999, pp. 700-704.
5. Q. Wei and G. Chen, Mining generalized association rules with fuzzy taxonomic structures, in Proc.
NAFIPS99, New York, June 1999, pp. 477-481.
6. Au and Chan, An effective algorithm for discovering fuzzy rules in relational databases, in Proc. IEEE Int. Conf. Fuzzy Syst. FUZZ IEEE 98, pp.1314-1319, May 1998.
7. J. Kacprzyk and S. Zadrozny, Data mining via linguistic summaries of data: An interactive approach, in Proc IIZUKA 99, Fukuoka, Japan, Oct. 1999, pp. 668-671.
8. D. A. Chiang, L. R. Chow, and Y. E.Wang, Mining time series data by a fuzzy linguistic summary system, Fuzzy Sets Syst. Vol. 112, pp. 419-432, 2002.
9. T. Kohonen, S. Kaski, etal, Self organization of a massive document clkkection, IEEE Trans. Naural Networks, Vol. 11, pp. 574-585, 2002.
10. V. Ciesielski and G. Palstra, Using a hybrid neural/expert system for database mining in market survey data, in Proc. Second International Conference on Knowledge Discovery and Data mining. Portland, Aug. 2-4, 1996.
11. S. Mitra and S. Pal, Fuzzy multi-layer perceptron, inferencing and rule generation, IEEE Trans. Neural Networks, Vol. 6, pp. 51-63, 1999.
12. S. Mitra and S. Pal, Fuzzy self organization, inferencing and rule generation, IEEE Trans. Syst. Man. Cybern. A , Vol. 2, pp. 608-620, 2000.
13. Y. Zhang and A. Kandel, Granular neural networks for numerical-linguistic data fusion and knowledge discovery, IEEE Trans. Neural Networks, Vol. 11, pp. 658-667, 2002.
14. E. Noda and H. Lopes, Discovering interesting prediction rules with a genetic algorithm, Proc. IEEE Cong. Evolutionary Comput. pp. 1332-1329, 2001.
15. 韓中華,吳成東,劉海濤,數(shù)據(jù)挖掘技術(shù)研究進(jìn)展,工控智能化,2003(10), pp. 18-23.
16. 李仁璞,基于粗集理論和神經(jīng)網(wǎng)絡(luò)結(jié)合的數(shù)據(jù)挖掘新方法,情報(bào)學(xué)報(bào),2002(12), pp. 674-679.
17. M. Banerjee and K. Pal, Rough fuzzy MLP: knowledge encoding and classification, IEEE Trans. Neural Networks, Vol. 9, pp. 1203-1216, 2000.
18. R. George and R. Srikanth, Data summarization using genetic algorithms and fuzzy logic, in Genetic Algorithms and Soft Computing, Eds. Heidelberg, Germany: Physicaverlag, 1999, pp. 599-611.
19. H. Kiem and D. Phuc, Using rough genetic and Kohonen's neual network for conceptual cluster discovery in data mining, in Proc.RSFDGRC99, Yamaguchi, Japan, Nov. 1999, pp. 448-452.