職位描述
????
???負(fù)責(zé)大規(guī)模文本、圖像數(shù)據(jù)的抓取、解析、清洗、存儲(chǔ)等工作。
???負(fù)責(zé)HTTP、AJAX等各類網(wǎng)絡(luò)請(qǐng)求分析,探索和研究高效的數(shù)據(jù)抓取解決方案。
???不斷完善和重構(gòu)現(xiàn)有爬蟲系統(tǒng),通過對(duì)抓取、解析、調(diào)度、存儲(chǔ)等模塊的拆分與優(yōu)化,構(gòu)建和完善統(tǒng)一的抓取服務(wù)平臺(tái)。
??
????
職位要求
????
???熟練掌握Python語言,對(duì)數(shù)據(jù)敏感,具有良好的邏輯分析能力;
???熟悉爬蟲原理,熟悉常見的反爬蟲技術(shù),熟悉scrapy等常見的爬蟲開源框架;
???熟悉Cookie的登錄原理,熟練掌握xpath,css,正則等常用的信息抽取技術(shù);
???熟悉常見的數(shù)據(jù)庫,如mysql,oracle,mongodb以及redis;
???三年以上工作經(jīng)驗(yàn),大專以上學(xué)歷;
???學(xué)習(xí)能力強(qiáng),能獨(dú)立解決問題;善于學(xué)習(xí)總結(jié);
???良好的團(tuán)隊(duì)合作精神和溝通協(xié)調(diào)能力;
??
????
加分項(xiàng)
????
???能破解js混淆、破解識(shí)別復(fù)雜圖片驗(yàn)證碼,帶案例者優(yōu)先;
???有app采集經(jīng)驗(yàn)優(yōu)先;