爬蟲工程師
崗位職責(zé):
1、負(fù)責(zé)數(shù)據(jù)抓取平臺(tái)規(guī)劃和建設(shè),完成數(shù)據(jù)采集與爬取、解析處理和入庫;
2、研究各種網(wǎng)頁探尋特點(diǎn)和規(guī)律,負(fù)責(zé)網(wǎng)頁信息抽取、數(shù)據(jù)清洗工作;
3、負(fù)責(zé)領(lǐng)域知識(shí)的定向爬取、深度提取和挖掘;
4、配合數(shù)據(jù)清洗、整理、去重和合并工作;
5、負(fù)責(zé)爬蟲相關(guān)技術(shù)的創(chuàng)新和優(yōu)化。
任職要求:
1、計(jì)算機(jī)相關(guān)專業(yè),本科以上學(xué)歷,2年以上爬蟲領(lǐng)域工作經(jīng)驗(yàn)。
2、熟悉Python開發(fā),熟悉wxpython,熟悉抓取框架,有完整的界面化爬蟲平臺(tái)開發(fā)經(jīng)驗(yàn);
3、熟悉Web抓取原理及技術(shù)實(shí)現(xiàn)細(xì)節(jié),對(duì)HTTP協(xié)議和HTML有深入了解;
4、熟悉數(shù)據(jù)抓取和整合技術(shù),從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取信息;
5、熟悉反爬機(jī)制,能夠通過逆向js腳本,獲取參數(shù),熟悉使用正則表達(dá)式/驗(yàn)證碼加密處理/代理池,熟悉行為驗(yàn)證碼識(shí)別、模擬登陸。