崗位職責(zé):
1.負(fù)責(zé)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的架構(gòu)設(shè)計(jì)與開發(fā);
2.負(fù)責(zé)數(shù)據(jù)的抓取、解析、清洗、入庫;
3.跨部門溝通確保數(shù)據(jù)的準(zhǔn)確性與及時(shí)性;
4.負(fù)責(zé)爬蟲核心算法的策略優(yōu)化研究,提升爬蟲抓取效率和質(zhì)量;
5.負(fù)責(zé)HTTP、AJAX等各類網(wǎng)絡(luò)請(qǐng)求分析,探索和研究高效的數(shù)據(jù)抓取解決方案;
6.根據(jù)業(yè)務(wù)需求,指導(dǎo)低級(jí)別爬蟲工程師完成業(yè)務(wù)目標(biāo)。
崗位要求:
1.有扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和爬蟲功底;
2.良好的溝通能力;
3.了解常見的反爬機(jī)制,并有豐富的實(shí)際解決經(jīng)驗(yàn);
4.三年以上大規(guī)模爬蟲/反爬經(jīng)驗(yàn),熟悉HTTP協(xié)議、瀏覽器原理、前端知識(shí),至少熟練掌握J(rèn)ava/Python/Go其中一種語言,熟悉常用爬蟲框架的機(jī)制(Scrapy或Webmagic);
5.有多線程、分布式網(wǎng)絡(luò)數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先。