說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732
全網(wǎng)監(jiān)測(cè)海量數(shù)據(jù)按需發(fā)布監(jiān)測(cè)預(yù)警
實(shí)時(shí)把握輿情動(dòng)態(tài)精準(zhǔn)追溯信息源頭
在信息收集和采集的過程當(dāng)中,數(shù)據(jù)挖掘技術(shù)是一個(gè)非常重要的凡事也是必不可少的方式,那么數(shù)據(jù)挖掘技術(shù)的流程是什么以及如何使用呢?接下來我們就一起來好好的了解一下吧。
數(shù)據(jù)挖掘技術(shù)——數(shù)據(jù)挖掘技術(shù)的流程是什么
(1)信息收集:根據(jù)確定的數(shù)據(jù)分析對(duì)象抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。對(duì)于海量數(shù)據(jù),選擇一個(gè)合適的數(shù)據(jù)存儲(chǔ)和管理的數(shù)據(jù)倉庫是至關(guān)重要的。
(2)數(shù)據(jù)集成:把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。
(3)數(shù)據(jù)規(guī)約:執(zhí)行多數(shù)的數(shù)據(jù)挖掘算法即使在少量數(shù)據(jù)上也需要很長(zhǎng)的時(shí)間,而做商業(yè)運(yùn)營(yíng)數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大。數(shù)據(jù)規(guī)約技術(shù)可以用來得到數(shù)據(jù)集的規(guī)約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前執(zhí)行結(jié)果相同或幾乎相同。
(4)數(shù)據(jù)清理:在數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值),含噪聲的(包含錯(cuò)誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進(jìn)行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉庫中。
(5)數(shù)據(jù)變換:通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對(duì)于有些實(shí)數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉(zhuǎn)換數(shù)據(jù)也是重要的一步。
(6)數(shù)據(jù)挖掘過程:根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)信息,選擇合適的分析工具,應(yīng)用統(tǒng)計(jì)方法、事例推理、決策樹、規(guī)則推理、模糊集、甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息,得出有用的分析信息。
(7)模式評(píng)估:從商業(yè)角度,由行業(yè)專家來驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。
(8)知識(shí)表示:將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識(shí)存放在知識(shí)庫中,供其他應(yīng)用程序使用。
數(shù)據(jù)挖掘技術(shù)如何操作
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問題,用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;以hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以art模型、koholon模型為代表的,用于聚類的自組織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點(diǎn)是”黑箱”性,人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程。
遺傳算法
遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng)用。
sunil已成功地開發(fā)了一個(gè)基于遺傳算法的數(shù)據(jù)挖掘工具,利用該工具對(duì)兩個(gè)飛機(jī)失事的真實(shí)數(shù)據(jù)庫進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn),結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一[4]。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯(cuò)誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和bp算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則等。但遺傳算法的算法較復(fù)雜,收斂于局部極小的較早收斂問題尚未解決。
決策樹方法
決策樹是一種常用于預(yù)測(cè)模型的算法,它通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。最有影響和最早的決策樹方法是由quinlan提出的著名的基于信息熵的id3算法。它的主要問題是:id3是非遞增學(xué)習(xí)算法;id3決策樹是單變量決策樹,復(fù)雜概念的表達(dá)困難;同性間的相互關(guān)系強(qiáng)調(diào)不夠;抗噪性差。針對(duì)上述問題,出現(xiàn)了許多較好的改進(jìn)算法,如schlimmer和fisher設(shè)計(jì)了id4遞增式學(xué)習(xí)算法;鐘鳴,陳文偉等提出了ible算法等。
粗集方法
粗集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給出額外信息;簡(jiǎn)化輸入信息的表達(dá)空間;算法簡(jiǎn)單,易于操作。粗集處理的對(duì)象是類似二維關(guān)系表的信息表。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)。
以上就是有關(guān)數(shù)據(jù)挖掘技術(shù)的所有相關(guān)介紹,做好網(wǎng)站優(yōu)化,那么數(shù)據(jù)挖掘技術(shù)就一定要學(xué)會(huì),所以各位站長(zhǎng)們一定要注意了。如果大家還想了解更多與之有關(guān)的內(nèi)容,歡迎關(guān)注我們文軍營(yíng)銷的官網(wǎng)。
推薦閱讀
把數(shù)據(jù)挖掘應(yīng)用到工作中 數(shù)據(jù)挖掘應(yīng)用案例 | 文軍營(yíng)銷一、用數(shù)據(jù)挖掘得出假設(shè),用實(shí)驗(yàn)規(guī)劃進(jìn)行檢驗(yàn) 如果數(shù)據(jù)挖掘得出了假設(shè),那么能否使用數(shù)據(jù)分析方法之一的聯(lián)合分析檢驗(yàn)假設(shè)呢?聯(lián)合分析是20世紀(jì)80年代在美國(guó)快速發(fā)展的市場(chǎng)營(yíng)銷領(lǐng)域版實(shí)驗(yàn)規(guī)劃法。廣告詞是開發(fā)暢銷產(chǎn)品的概念組合。用虛擬變量的回歸分析解析聯(lián)合分析的數(shù)據(jù)。 為了調(diào)查哪種簡(jiǎn)易的網(wǎng)絡(luò)教育書籍最受歡迎,進(jìn)行一項(xiàng)問卷...李彥宏證監(jiān)會(huì)演講:百度是如何布局人工智能的? | 文軍營(yíng)銷當(dāng)然,交通行業(yè)只是一個(gè)案例,未來的大數(shù)據(jù)將會(huì)從各行各業(yè)產(chǎn)生,而人工智能將會(huì)對(duì)這些各行各業(yè)的數(shù)據(jù)進(jìn)行自頂向下的標(biāo)準(zhǔn)化挖掘、關(guān)聯(lián),當(dāng)前只是在利用人工智能挖掘各個(gè)行業(yè)的效率,在未來各種行業(yè)的大數(shù)據(jù)整合到一起之后,需要更為強(qiáng)大的人工智能將其整合、解讀、分析,終實(shí)現(xiàn)全社會(huì)的資源為的分配調(diào)度,而這也是百度野心。 ...
說明:如果您有任何疑問或想咨詢其他業(yè)務(wù)請(qǐng)撥打電話 400 685 0732