1.負(fù)責(zé)分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的架構(gòu)設(shè)計(jì)與開(kāi)發(fā)(如抓取調(diào)度,多樣化抓取,頁(yè)面解析和結(jié)構(gòu)化抽取,海量數(shù)據(jù)存儲(chǔ)和讀取等);負(fù)責(zé)數(shù)據(jù)的抓取、解析、清洗、入庫(kù);
?2.設(shè)計(jì)和優(yōu)化爬蟲(chóng)策略與算法,提升數(shù)據(jù)抓取效果;
?3.設(shè)計(jì)爬蟲(chóng)策略和防屏蔽規(guī)則,提升網(wǎng)頁(yè)抓取的效率和質(zhì)量;
?4.負(fù)責(zé)爬蟲(chóng)邏輯的開(kāi)發(fā),快速響應(yīng)業(yè)務(wù)變動(dòng),并持續(xù)優(yōu)化系統(tǒng),提高系統(tǒng)的穩(wěn)定性;
?5.能夠根據(jù)客戶需求,進(jìn)行需求分析,完成接口設(shè)計(jì)、詳細(xì)設(shè)計(jì)以及相應(yīng)的開(kāi)發(fā)及測(cè)試任務(wù)。
??
?崗位要求:
?1.?計(jì)算機(jī)、軟件工程等相關(guān)專業(yè),2年以上爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn),熟悉linux和Java開(kāi)發(fā),熟悉shell/perl/python等腳本語(yǔ)言,熟練掌握正則表達(dá)式。
?2.?精通一種開(kāi)源爬蟲(chóng)框架,如scrapy、webmagic、nutch、heritrix等,有開(kāi)發(fā)爬蟲(chóng)框架經(jīng)驗(yàn)優(yōu)先;熟悉反爬蟲(chóng)、驗(yàn)證碼識(shí)別技術(shù)者優(yōu)先;熟悉網(wǎng)絡(luò)編程(TCP、HTTP、Soket)有多線程、網(wǎng)絡(luò)數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先。
?3.?學(xué)習(xí)能力強(qiáng),具備良好的分析和解決問(wèn)題能力,對(duì)技術(shù)抱有熱情,愿意研究新技術(shù)。
?4.?思維敏捷,邏輯清晰,有較強(qiáng)的分析和解決問(wèn)題的能力。
?5.?有數(shù)據(jù)清洗經(jīng)驗(yàn)優(yōu)先。
ps:新項(xiàng)目初創(chuàng)階段。