職位描述:1.?負(fù)責(zé)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)的架構(gòu)設(shè)計(jì)與開(kāi)發(fā)(如抓取調(diào)度,多樣化抓取,頁(yè)面解析和結(jié)構(gòu)化抽取,海量數(shù)據(jù)存儲(chǔ)和讀取等)2.?負(fù)責(zé)爬蟲核心算法的策略優(yōu)化研究,提升爬蟲抓取效率和質(zhì)量(如調(diào)權(quán)調(diào)度、分析預(yù)測(cè)、質(zhì)量判斷、封禁與反封禁研究等)?3.?負(fù)責(zé)HTTP、AJAX等各類網(wǎng)絡(luò)請(qǐng)求分析,探索和研究高效的數(shù)據(jù)抓取解決方案任職資格:?1、本科及以上學(xué)歷,良好的代碼能力,扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和算法功底,有快速迭代、逐步優(yōu)化的工程項(xiàng)目經(jīng)驗(yàn)?2、有良好邏輯思維能力、溝通能力、團(tuán)隊(duì)合作精神、學(xué)習(xí)能力,抗壓能力,對(duì)挑戰(zhàn)性問(wèn)題充滿激情?3、熟悉linux和Java開(kāi)發(fā),熟悉shell/perl/python等腳本語(yǔ)言,熟練掌握正則表達(dá)式4、精通一種開(kāi)源爬蟲框架,如scrapy、webmagic、nutch、heritrix等,有開(kāi)發(fā)爬蟲框架經(jīng)驗(yàn)優(yōu)先;熟悉反爬蟲、驗(yàn)證碼識(shí)別技術(shù)者優(yōu)先5、有多線程、網(wǎng)絡(luò)數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先(如HTTP協(xié)議,AJAX,爬蟲開(kāi)發(fā),瀏覽器內(nèi)核開(kāi)發(fā),Web服務(wù)開(kāi)發(fā)等)?6、有大規(guī)模分布式海量數(shù)據(jù)處理經(jīng)驗(yàn)優(yōu)先(如Hadoop/Hbase/Spark/Strom/Flink等