崗位職責(zé):1.負責(zé)設(shè)計和開發(fā)分布式的網(wǎng)絡(luò)爬蟲應(yīng)用;2.負責(zé)爬蟲抓取數(shù)據(jù)的分析和整理;3.負責(zé)解決爬取過程中的各種反爬問題。任職要求:1、熟悉網(wǎng)頁抓取原理及技術(shù),熟悉基于正則表達式、Xpath、CSS等網(wǎng)頁信息;2、使用python?1年以上的開發(fā)經(jīng)驗;3、精通至少一種主流數(shù)據(jù)NoSQL、mysql數(shù)據(jù)庫;4、熟悉httpclient、js,ajax,webdriver、htmlunit、Nutch、selenium、ETL、HtmlParser、Jsoup,webmagic等技術(shù)優(yōu)先;5、有海量數(shù)據(jù)爬取經(jīng)驗者優(yōu)先;有爬取過微博,微信,淘寶等平臺數(shù)據(jù)優(yōu)先;具有自然語言處理、機器學(xué)習(xí)背景優(yōu)先;6、具有較強的分析和解決問題能力,以解決技術(shù)難題為樂趣,有想法,敢于挑戰(zhàn)。