崗位職責:
1、負責對互聯(lián)網(wǎng)上相關領域的文本數(shù)據(jù)進行抓取、分析與整理;
2、模式識別相關數(shù)據(jù)的處理,智能數(shù)據(jù)分析模塊編寫。
3、研究相關站點的網(wǎng)站特征,發(fā)現(xiàn)它們的特點和規(guī)律,設計各種爬蟲策略和算法;
4、開發(fā)爬蟲程序,提取文本、鏈接、圖片、文件等各類信息,并持續(xù)提升爬蟲的抓取效果;
5、持續(xù)分析爬蟲的技術缺陷,并做出合理地調(diào)整或改進;
6、智能抽取工具的開發(fā)。
任職資格:
1、熟悉Linux平臺,對CCJavaPython中至少一種熟練掌握。
2、精通Java網(wǎng)絡編程,熟悉HTTP傳輸協(xié)議,能模擬瀏覽器操作爬蟲;
3、精通網(wǎng)頁抓取原理及技術,精通正則表達式,從結構化的和非結構化的數(shù)據(jù)中獲取信息;
4、熟悉LuceneNutchHeritrixlarbinHtmlClientHtmlParser等開源工具;
5、熟悉HBase,MongoDB等NoSQL數(shù)據(jù)庫,并至少精通一種關系型數(shù)據(jù)庫的開發(fā),如Mysql、Oracle、MSSQL等;
6、熟悉搜索引擎和網(wǎng)絡爬蟲相關技術,如有分詞、spider、分類、聚類、索引、檢索等相關開發(fā)經(jīng)驗者優(yōu)先。