任職要求:
1、計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)相關(guān)專業(yè)本??埔陨蠈W(xué)歷,一年以上大規(guī)模網(wǎng)頁(yè)爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn),?熟悉JS,ajax語(yǔ)言,有網(wǎng)頁(yè)消重經(jīng)驗(yàn);
2、熟悉多線程、多進(jìn)程、網(wǎng)絡(luò)通信編程相關(guān)知識(shí),能夠總結(jié)分析不同網(wǎng)站,網(wǎng)頁(yè)的結(jié)構(gòu)特點(diǎn)及規(guī)律,有分布式、垂直領(lǐng)域爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn)優(yōu)先;
3、熟悉JAVA或其它一種編程語(yǔ)言,熟悉?Lucene/Nutch/Heritrix/larbin/HtmlParser等開(kāi)源工具,?熟練使用正則表達(dá)式;對(duì)數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計(jì)有較為深刻的理解;
4、良好的邏輯思維能力,善于從海量數(shù)據(jù)中總結(jié)規(guī)律;敏銳的觀察力,可及時(shí)根據(jù)積累的數(shù)據(jù)發(fā)現(xiàn)潛在的問(wèn)題,精通數(shù)據(jù)網(wǎng)絡(luò)信令業(yè)務(wù)者優(yōu)先;
5、熟悉linux操作系統(tǒng)及hapdoop環(huán)境數(shù)據(jù)處理優(yōu)先;
6、實(shí)現(xiàn)數(shù)據(jù)的抓取及數(shù)據(jù)規(guī)則清洗工作,保證正確的入庫(kù)數(shù)據(jù);
7、具有良好的溝通和表達(dá)能力和團(tuán)隊(duì)合作能力;
8、有大數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先。
崗位職責(zé):
1、負(fù)責(zé)爬蟲(chóng)和數(shù)據(jù)采集系統(tǒng)的維護(hù)和開(kāi)發(fā);
2、負(fù)責(zé)網(wǎng)絡(luò)數(shù)據(jù)抓取規(guī)劃、清洗以及匯總的開(kāi)發(fā)工作;
3、定期爬取指定網(wǎng)站的數(shù)據(jù),為業(yè)務(wù)部門(mén)提供數(shù)據(jù)支持。
工作方向:互聯(lián)網(wǎng)數(shù)據(jù)的爬取挖掘轉(zhuǎn)存