任職要求:?
1.?熟悉掌握J(rèn)AVA編程,有腳本語言使用經(jīng)驗(yàn),并能熟練使用正則表達(dá)式,熟練DOM分析網(wǎng)頁結(jié)構(gòu):?
2.?熟悉各種網(wǎng)站、網(wǎng)頁、鏈接的形態(tài),了解它們的特點(diǎn)和規(guī)律;??
3?熟悉heritrix框架,了解提升spider、heritrix的抓取的方法。
4.?對(duì)網(wǎng)絡(luò)爬蟲、網(wǎng)頁信息抽取、網(wǎng)頁結(jié)構(gòu)分析有類似開發(fā)工作經(jīng)驗(yàn);?
5.?精通網(wǎng)絡(luò)編程、對(duì)算法設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)有較深深刻的理解;
6.?具有較強(qiáng)的溝通能力、團(tuán)隊(duì)合作精神及抗壓能力
工作職責(zé):
1.?參與網(wǎng)絡(luò)信息獲取方向的研究與開發(fā);?
2.?開發(fā)研究海量網(wǎng)頁抓取、信息精準(zhǔn)提取等搜索核心技術(shù);?
3.?根據(jù)公司制定的規(guī)則要求,編寫網(wǎng)絡(luò)爬蟲軟件,從網(wǎng)上抓取對(duì)應(yīng)內(nèi)容資料