崗位職責:1、參與爬蟲系統(tǒng)的架構(gòu)設(shè)計與開發(fā);2、具有實際爬蟲開發(fā)、內(nèi)容提取工作經(jīng)驗3年以上;3、負責設(shè)計和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng),進行多平臺信息的抓取和分析;4、設(shè)計爬蟲策略和防屏蔽規(guī)則,提升網(wǎng)頁抓取的效率和質(zhì)量5、能獨立解決實際開發(fā)過程碰到的各類問題;職位要求:1、熟悉linux平臺開發(fā),3年以上Java、python開發(fā)經(jīng)驗;2、精通信息抓取和整合技術(shù),從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;3、熟悉Mysql,redis,mongdb三者至少之一,有過數(shù)據(jù)庫調(diào)優(yōu)和海量數(shù)據(jù)存儲經(jīng)驗者優(yōu)先;4、掌握多種解析工具的使用,熟悉正則;?5、使用過1種以上爬蟲框架(pyspider、scrapy等);6、掌握簡單的驗證碼識別技術(shù)、AJAX網(wǎng)頁采集技術(shù)?以及爬蟲高并發(fā)技術(shù),流式處理經(jīng)驗者優(yōu)先。