崗位職責(zé):
1、負(fù)責(zé)定向數(shù)據(jù)的采集與爬取、解析處理、入庫及備份等數(shù)據(jù)日常工作;
2、研究主流網(wǎng)站的爬取方法及數(shù)據(jù)清洗處理,負(fù)責(zé)非定向數(shù)據(jù)的清洗、整理、整合及合并等工作;
3、及時(shí)解決生產(chǎn)上的系統(tǒng)問題,并對(duì)用戶提供技術(shù)支持;
崗位要求:
1、3年以上Linux環(huán)境Java/Python開發(fā)經(jīng)驗(yàn),至少2年以上爬蟲系統(tǒng)開發(fā)經(jīng)驗(yàn);
2、使用技術(shù)框架包括但不限于:Nutch,WebCollector,Scrapy,Selenium
3、熟練使用正則表達(dá)式、xpath解析數(shù)據(jù)、搜索策略、算法、數(shù)據(jù)聚類、重組技術(shù),熟悉反爬蟲;
4、有過海量代理IP池建設(shè),復(fù)雜驗(yàn)證碼識(shí)別,熟練掌握安卓反編譯經(jīng)驗(yàn)優(yōu)先
5、熟悉抓包工具(Wireshark,Fillder等),熟悉網(wǎng)絡(luò)通信編程,網(wǎng)頁抓取原理及技術(shù),熟悉HTTP傳輸協(xié)議,能模擬各類操作爬蟲;熟悉爬蟲實(shí)現(xiàn)原理機(jī)制;對(duì)分布式和多線程技術(shù)有一定了解;
6、熟練掌握分布式爬蟲,日采集量千萬級(jí)別以上,并充分了解抓取策略(1、深度優(yōu)先遍歷策略?2、寬度優(yōu)先遍歷策略?3、反向鏈接數(shù)策略等);
7、有較強(qiáng)的學(xué)習(xí)能力,對(duì)技術(shù)有鉆研精神,熱衷于新技術(shù)的學(xué)習(xí)和實(shí)踐;
8、具有良好的團(tuán)隊(duì)協(xié)作精神,思維清晰敏捷,邏輯分析能力強(qiáng)。