1.?負(fù)責(zé)互聯(lián)網(wǎng)站、網(wǎng)頁(yè)、鏈接的特征挖掘;
2.?提供分布式爬蟲(chóng)和數(shù)據(jù)采集系統(tǒng)的技術(shù)實(shí)現(xiàn)方案;
3.?設(shè)計(jì)和開(kāi)發(fā)分布式網(wǎng)絡(luò)爬蟲(chóng)程序;
4.?分析靜態(tài)網(wǎng)頁(yè)結(jié)構(gòu),解析網(wǎng)頁(yè)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行過(guò)濾,去重,結(jié)構(gòu)化處理;
5.?設(shè)計(jì)優(yōu)化爬蟲(chóng)調(diào)度系統(tǒng),優(yōu)化調(diào)度策略。
【任職要求】
1.?全日制本科以上,計(jì)算機(jī)/軟件工程相關(guān)專(zhuān)業(yè),兩年以上爬蟲(chóng)經(jīng)驗(yàn);
2.?扎實(shí)的Java/Python基礎(chǔ),熟悉多線(xiàn)程編程環(huán)境,熟悉常見(jiàn)開(kāi)源框架;
3.?熟悉前端技術(shù),HTML,JavaScript,Ajax等;
4.?熟練使用正則表達(dá)式,精通網(wǎng)頁(yè)數(shù)據(jù)提?。?br />5.?熟悉抓取原理及技術(shù),熟悉Scrapy、Pyspider、nutch等主流爬蟲(chóng)框架使用;
6.?具有構(gòu)建分布式爬蟲(chóng)系統(tǒng)的經(jīng)驗(yàn),具有海量高并發(fā)網(wǎng)頁(yè)爬取項(xiàng)目經(jīng)驗(yàn);
7.?熟悉數(shù)據(jù)庫(kù)操作、SQL語(yǔ)言與優(yōu)化,了解ETL過(guò)程以及操作工具;
8.?熟悉大數(shù)據(jù)數(shù)據(jù)庫(kù)者優(yōu)先;
9.?喜歡技術(shù)鉆研,具有較強(qiáng)的學(xué)習(xí)能力,有獨(dú)立解決問(wèn)題的能力;