崗位職責(zé):
1、負(fù)責(zé)機(jī)票網(wǎng)站的抓取、分析、調(diào)度、存儲,為公司業(yè)務(wù)提供數(shù)據(jù)支持;
2、負(fù)責(zé)公司爬蟲引擎核心功能開發(fā)及優(yōu)化;
3、負(fù)責(zé)目標(biāo)站點(diǎn)的結(jié)構(gòu)與URL特點(diǎn)分析,網(wǎng)頁信息抽取算法的研究和優(yōu)化,和數(shù)據(jù)清洗等研發(fā)和優(yōu)化工作;
4、分析爬蟲系統(tǒng)瓶頸,設(shè)計(jì)實(shí)現(xiàn)相應(yīng)策略和算法,提升爬蟲的抓取效率和質(zhì)量;
崗位要求:
1、?熟悉搜索、旅行、機(jī)票、酒店的一類并有此類項(xiàng)目經(jīng)驗(yàn)者優(yōu)先考慮。
2、?熟練使用正則表達(dá)式、xpath解析數(shù)據(jù)、搜索策略、算法、數(shù)據(jù)聚類、重組技術(shù),熟悉反爬蟲、驗(yàn)證碼識別;
3、?精通抓包工具至少一種,熟悉使用正則表達(dá)式;精通網(wǎng)絡(luò)通信編程,網(wǎng)頁抓取原理及技術(shù),熟悉HTTP傳輸協(xié)議,能模擬各類操作爬蟲;熟悉爬蟲實(shí)現(xiàn)原理機(jī)制;對分布式和多線程技術(shù)有一定了解;
4、?抓取策略熟悉(1、深度優(yōu)先遍歷策略?2、寬度優(yōu)先遍歷策略?3、反向鏈接數(shù)策略?4、Partial?PageRank策略?5、OPIC策略策略?6、大站優(yōu)先策略);
5、?能承受較大的工作壓力,有較強(qiáng)團(tuán)隊(duì)合作精神,有良好的敬業(yè)精神,富于創(chuàng)新精神,具有較強(qiáng)的溝通能力、學(xué)習(xí)能力;
6、?2年以上垂直搜索爬蟲,分布式網(wǎng)絡(luò)爬蟲開發(fā)經(jīng)驗(yàn),至少獨(dú)立負(fù)責(zé)過1個完整爬蟲項(xiàng)目;