|
九九信用 大象金服北京科技有限公司
| 聯(lián)系人:張
先生 (CEO) |
| 電 話(huà):010-62648216 |
| 手 機(jī): |
 |
|
 |
|
| NLPIR文本機(jī)器學(xué)習(xí)技術(shù)助力深度數(shù)據(jù)挖掘 |
機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專(zhuān)門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。
它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。
機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:數(shù)據(jù)挖掘、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、生物特征識(shí)別、搜索引擎、醫(yī)學(xué)診斷、DNA序列測(cè)序、語(yǔ)音和手寫(xiě)識(shí)別、戰(zhàn)略游戲和機(jī)器人運(yùn)用。
NLPIR文本搜索與挖掘智能平臺(tái)針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語(yǔ)言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開(kāi)發(fā)的基礎(chǔ)工具集。開(kāi)發(fā)平臺(tái)由多個(gè)中間件組成,各個(gè)中間件API可以無(wú)縫地融合到客戶(hù)的各類(lèi)復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,C,C#等各類(lèi)開(kāi)發(fā)語(yǔ)言使用。
機(jī)器學(xué)習(xí)從本質(zhì)上來(lái)說(shuō)是一種學(xué)習(xí)結(jié)構(gòu), 整個(gè)結(jié)構(gòu)包括環(huán)境、知識(shí)庫(kù)和執(zhí)行三個(gè)部分。 在整個(gè)過(guò)程中,環(huán)境向系統(tǒng)提供信息,系統(tǒng)利用這些信息修改知識(shí)庫(kù),以增進(jìn)系統(tǒng)執(zhí)行部分完成任務(wù)的效能,執(zhí)行部分根據(jù)知識(shí)庫(kù)完成任務(wù),同時(shí)把獲得的信息反饋給學(xué)習(xí)部分,從而繼續(xù)改進(jìn)知識(shí)庫(kù)。
NLPIR文本搜索與挖掘智能平臺(tái)的幾大功能:
1. 全文精準(zhǔn)檢索:支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類(lèi)型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢(xún)語(yǔ)法,支持維語(yǔ)、藏語(yǔ)、蒙語(yǔ)、阿拉伯、韓語(yǔ)等多種少數(shù)民族語(yǔ)言的檢索?梢詿o(wú)縫地與現(xiàn)有文本處理系統(tǒng)與數(shù)據(jù)庫(kù)系統(tǒng)融合。
2. 新詞發(fā)現(xiàn):從文件集合中挖掘出內(nèi)涵的新詞語(yǔ)列表,可以用于用戶(hù)專(zhuān)業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,從而提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語(yǔ)言變化。
3. 分詞標(biāo)注::對(duì)原始語(yǔ)料進(jìn)行分詞、自動(dòng)識(shí)別人名地名機(jī)構(gòu)名等未登錄詞、新詞標(biāo)注以及詞性標(biāo)注。并可在分析過(guò)程中,導(dǎo)入用戶(hù)定義的詞典。
4. 統(tǒng)計(jì)分析與術(shù)語(yǔ)翻譯:針對(duì)切分標(biāo)注結(jié)果,系統(tǒng)可以自動(dòng)地進(jìn)行一元詞頻統(tǒng)計(jì)、二元詞語(yǔ)轉(zhuǎn)移概率統(tǒng)計(jì)(統(tǒng)計(jì)兩個(gè)詞左右連接的頻次即概率)。針對(duì)常用的術(shù)語(yǔ),會(huì)自動(dòng)給出相應(yīng)的英文解釋。
5. 文本聚類(lèi):能夠從大規(guī)模數(shù)據(jù)中自動(dòng)分析出熱點(diǎn)事件,并提供事件話(huà)題的關(guān)鍵特征描述。同時(shí)適用于長(zhǎng)文本和短信、微博等短文本的熱點(diǎn)分析。
6. 分類(lèi)過(guò)濾:針對(duì)事先指定的規(guī)則和示例樣本,系統(tǒng)自動(dòng)從海量文檔中篩選出符合需求的樣本。
7. 正負(fù)面分析:針對(duì)事先指定的分析對(duì)象和示例樣本,系統(tǒng)自動(dòng)從海量文檔中篩選出正負(fù)面的得分和 |
 |
| |
|
|
 |
|
|