崗位職責:
1.負責數(shù)據(jù)采集,頁面抓取等工作的設(shè)計和研發(fā);
2.負責APP客戶端上的數(shù)據(jù)抓取工作;
3.解決抓取數(shù)據(jù)過程中遇到的疑難問題;
4.熟悉Nutch,Heritrix,?WebCollector,Jsoup等開源爬蟲框架,定制實現(xiàn)批量采集,增量采集,分布式采集程序。
任職要求:
1.具有2年以上爬蟲抓取,網(wǎng)頁信息抽取實際項目的工作經(jīng)驗,具有爬蟲架構(gòu)設(shè)計,數(shù)據(jù)庫設(shè)計經(jīng)驗;
2.對數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計有較為深刻的理解,熟悉socket網(wǎng)絡(luò)編程、Http協(xié)議;
3.熟悉Html,Dom,JavsScript,XML和XPath等技術(shù);
4.熟悉.net、java、python等編程語言一種,有過實際采集軟件開發(fā)經(jīng)驗的優(yōu)先;
5.具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機器學習背景的優(yōu)先。
?
武漢工作地址:湖北省武漢市江漢區(qū)解放大道創(chuàng)世紀廣場B座2011
南京工作地址:江蘇省南京市浦濱路150號中科創(chuàng)新廣場5#302