1、參與數(shù)據(jù)層建設(shè),專注于垂直領(lǐng)域數(shù)據(jù)爬取,進行多平臺信息的抓取和分析;
2、參與爬蟲系統(tǒng)的架構(gòu)設(shè)計與開發(fā);
3、實現(xiàn)數(shù)據(jù)提取、清洗、結(jié)構(gòu)化、入庫、統(tǒng)計分析等需求;
4、研究優(yōu)化算法,提升爬蟲系統(tǒng)的穩(wěn)定性、可擴展性;
5、設(shè)計爬蟲策略和防屏蔽規(guī)則,提升網(wǎng)頁抓取的效率和質(zhì)量;
6、能獨立解決實際開發(fā)過程碰到的各類問題。
崗位要求:
1、全日制本科以上學(xué)歷,計算機等相關(guān)專業(yè);
2、有扎實的計算機基礎(chǔ)、熟悉常用數(shù)據(jù)結(jié)構(gòu),具有實際爬蟲開發(fā)經(jīng)驗;
3、至少熟練掌握J(rèn)ava/Python其中一種語言,良好的編碼風(fēng)格及編碼能力;
4、熟悉高并發(fā)、高性能的分布式爬蟲系統(tǒng)的設(shè)計及應(yīng)用,熟悉常用數(shù)據(jù)存儲,各種數(shù)據(jù)處理技術(shù)優(yōu)先;
5、有2年以上編程開發(fā)經(jīng)驗,有豐富的爬蟲和反爬蟲經(jīng)驗者優(yōu)先。
6、熟悉常用的scrapy,requests模塊及正則表達(dá)式BeautifulSoup等解析工具。
7、了解常用的反爬蟲手段,如代理IP池、無頭瀏覽器、驗證碼破解等。