|
九九信用 大象金服北京科技有限公司
| 聯(lián)系人:張
先生 (CEO) |
| 電 話:010-62648216 |
| 手 機(jī): |
 |
|
 |
|
| NLPIR語(yǔ)義系統(tǒng)智能挖掘文本數(shù)據(jù) |
隨著數(shù)據(jù)量的高速增長(zhǎng),數(shù)據(jù)的內(nèi)在價(jià)值日益受到關(guān)注。數(shù)據(jù)量激增已經(jīng)給各行各業(yè)帶來(lái)深刻影響。目前,網(wǎng)絡(luò)文本信息本質(zhì)并沒(méi)有隨時(shí)代的變化而變化,但其符號(hào)、載體和記錄復(fù)制方式正在發(fā)生翻天覆地變化;電子形式或網(wǎng)絡(luò)空間中的文本信息正在向綜合化方向發(fā)展,數(shù)字化、多媒體、可視化等正在成為文本信息記錄、保存和傳播的發(fā)展方向。面對(duì)這種形勢(shì),社會(huì)科學(xué)的研究方法、研究?jī)?nèi)容和學(xué)科疆界也在發(fā)生變化。在海量數(shù)據(jù)和信息面前,如果沒(méi)有數(shù)據(jù)管控,沒(méi)有數(shù)據(jù)和知識(shí)挖掘、發(fā)現(xiàn)、組織、導(dǎo)航、表達(dá)的科學(xué)化管理過(guò)程,數(shù)據(jù)分析人員就有可能迷失在數(shù)據(jù)和信息的汪洋大海中。
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域涉及廣泛,主要包括數(shù)據(jù)庫(kù)系統(tǒng),基于知識(shí)的系統(tǒng),人工智能,機(jī)器學(xué)習(xí),知識(shí)獲取,統(tǒng)計(jì)學(xué),空間數(shù)據(jù)庫(kù)和數(shù)據(jù)可現(xiàn)化等領(lǐng)域。
(一)統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)在數(shù)據(jù)樣本選擇、數(shù)據(jù)預(yù)處理及評(píng)價(jià)抽取知識(shí)的步驟中有非常重要的作用。在數(shù)據(jù)預(yù)處理步驟中,統(tǒng)計(jì)學(xué)提出了估計(jì)噪聲參數(shù)過(guò)程中要用的平滑處理的技術(shù),在一定程度上對(duì)補(bǔ)足丟失數(shù)據(jù)有相當(dāng)?shù)淖饔。統(tǒng)計(jì)學(xué)對(duì)檢測(cè)數(shù)據(jù)分析、聚類和實(shí)驗(yàn)數(shù)據(jù)參數(shù)設(shè)計(jì)上也有用。統(tǒng)計(jì)學(xué)的工作大多是針對(duì)技術(shù)和模型的理論方面。于是許多工作是著眼于線性模型、遞增的高斯噪聲模型、參數(shù)估計(jì)和嚴(yán)格分類參數(shù)模型上。
(二)模式識(shí)別
在模式識(shí)別工作中,傳統(tǒng)上是把注意力集中在符號(hào)形式化直接結(jié)合實(shí)際技術(shù)的工作過(guò)程中。模式識(shí)別主要用于分類技術(shù)和數(shù)據(jù)的聚類技術(shù)上。模式識(shí)別中的分類和含義分析是對(duì)數(shù)據(jù)挖掘概念形成的開(kāi)端。多數(shù)模式識(shí)別的算法和方法對(duì)降維、變換和設(shè)置都有直接的參考意義。在數(shù)據(jù)挖掘的步驟中,模式識(shí)別比統(tǒng)計(jì)學(xué)更為重要,因?yàn)樗鼜?qiáng)調(diào)了計(jì)算機(jī)算法、更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和更多的搜索。典型的數(shù)據(jù)分類是用一定的分類技術(shù)把數(shù)據(jù)從一個(gè)向量空間映射到另外一個(gè)向量空間。
(三)人工智能
人工智能對(duì)于數(shù)據(jù)挖掘來(lái)說(shuō)原來(lái)一直是在符號(hào)的層次上處理數(shù)據(jù),而對(duì)于連續(xù)變量注意較少。在機(jī)器學(xué)習(xí)和基于案例的推理中,分類和聚類算法著重于啟發(fā)式搜索和非參數(shù)模型。對(duì)于其結(jié)果,并不象模式識(shí)別和統(tǒng)計(jì)學(xué)在數(shù)學(xué)上的精確和要求嚴(yán)格分析。隨著計(jì)算機(jī)學(xué)習(xí)理論的發(fā)展。人工智能把注意力集中在了表達(dá)廣義分類的模糊邊緣上。機(jī)器學(xué)習(xí)主要是對(duì)數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)變量選擇處理極有幫助,在通過(guò)大量搜索表達(dá)式和選擇變量上有很大作用。人工智能的其他技術(shù),包括知識(shí)獲取技術(shù)、知識(shí)搜索和知識(shí)表達(dá)在數(shù)據(jù)挖掘的數(shù)據(jù)變換、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理等步驟中都有作用。
(四)數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)及其相關(guān)技術(shù)顯然與數(shù)據(jù)挖掘有直接的關(guān)系。數(shù)據(jù)庫(kù)是原始數(shù)據(jù)的處理、儲(chǔ)存和操作的基礎(chǔ)。隨著平行和分布式數(shù)據(jù)庫(kù)的使用,對(duì)數(shù)據(jù) |
 |
| |
|
|
 |
|
|