任職要求:
1、計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)相關(guān)專業(yè)本??埔陨蠈W(xué)歷,一年以上大規(guī)模網(wǎng)頁爬蟲開發(fā)經(jīng)驗(yàn),?熟悉JS,ajax語言,有網(wǎng)頁消重經(jīng)驗(yàn);
2、熟悉多線程、多進(jìn)程、網(wǎng)絡(luò)通信編程相關(guān)知識,能夠總結(jié)分析不同網(wǎng)站,網(wǎng)頁的結(jié)構(gòu)特點(diǎn)及規(guī)律,有分布式、垂直領(lǐng)域爬蟲開發(fā)經(jīng)驗(yàn)優(yōu)先;
3、熟悉JAVA或其它一種編程語言,熟悉?Lucene/Nutch/Heritrix/larbin/HtmlParser等開源工具,?熟練使用正則表達(dá)式;對數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計(jì)有較為深刻的理解;
4、良好的邏輯思維能力,善于從海量數(shù)據(jù)中總結(jié)規(guī)律;敏銳的觀察力,可及時根據(jù)積累的數(shù)據(jù)發(fā)現(xiàn)潛在的問題,精通數(shù)據(jù)網(wǎng)絡(luò)信令業(yè)務(wù)者優(yōu)先;
5、熟悉linux操作系統(tǒng)及hapdoop環(huán)境數(shù)據(jù)處理優(yōu)先;
6、實(shí)現(xiàn)數(shù)據(jù)的抓取及數(shù)據(jù)規(guī)則清洗工作,保證正確的入庫數(shù)據(jù);
7、具有良好的溝通和表達(dá)能力和團(tuán)隊(duì)合作能力;
8、有大數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先。
崗位職責(zé):
1、負(fù)責(zé)爬蟲和數(shù)據(jù)采集系統(tǒng)的維護(hù)和開發(fā);
2、負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)抓取規(guī)劃、清洗以及匯總的開發(fā)工作;
3、定期爬取指定網(wǎng)站的數(shù)據(jù),為業(yè)務(wù)部門提供數(shù)據(jù)支持。
工作方向:互聯(lián)網(wǎng)數(shù)據(jù)的爬取挖掘轉(zhuǎn)存