1.負(fù)責(zé)整個主題爬蟲系統(tǒng)架構(gòu)和數(shù)據(jù)存儲設(shè)計,應(yīng)對各種互聯(lián)網(wǎng)爬蟲規(guī)則;
2.把握網(wǎng)絡(luò)爬蟲的核心技術(shù)研究方向,例如信息抽取、數(shù)據(jù)聚類、重組、搜索;
3.分析爬蟲系統(tǒng)的技術(shù)缺陷,對策略架構(gòu)做出合理性地調(diào)整和改進(jìn);
4.負(fù)責(zé)日常網(wǎng)頁數(shù)據(jù)抓取需求的實(shí)現(xiàn);
5.爬蟲系統(tǒng)的維護(hù)和優(yōu)化;
崗位要求:
1.有兩年以上網(wǎng)絡(luò)爬蟲軟件設(shè)計與開發(fā)經(jīng)驗(yàn);
2.精通Java語言編程,熟悉Linux平臺;
3.熟悉搜索引擎的工作原理;熟悉Lucene、Nutch、Heritrix、Larbin、HtmlParse、Scrapy等開源工具;
4.精通網(wǎng)頁爬蟲、分布式、多線程開發(fā)技術(shù);
5.熟悉DOMHTML5CSS3等頁面對象,使用過HtmlParser、Parser、xpath等頁面解析組件,熟悉正則表達(dá)式;
6.熟悉nosql(redis、mongodb),有hbase開發(fā)經(jīng)驗(yàn)者優(yōu)先;
7.熟悉ActiveMQ、RabbitMQ、Redis、kafka等消息框架;
8.研究過反爬蟲技術(shù),熟悉地址去重算法;
9.能獨(dú)立解決技術(shù)問題;