崗位職責(zé): 1、負(fù)責(zé)數(shù)據(jù)抓取平臺規(guī)劃和建設(shè),完成數(shù)據(jù)采集與爬取、解析處理和入庫; 2、研究各種網(wǎng)頁探尋特點和規(guī)律,負(fù)責(zé)網(wǎng)頁信息抽取、數(shù)據(jù)清洗工作; 3、負(fù)責(zé)領(lǐng)域知識的定向爬取、深度提取和挖掘; 4、配合數(shù)據(jù)清洗、整理、去重和合并工作; 5、負(fù)責(zé)爬蟲相關(guān)技術(shù)的創(chuàng)新和優(yōu)化。任職要求: 1、計算機相關(guān)專業(yè),2年以上爬蟲領(lǐng)域工作經(jīng)驗;2、熟悉Python、Java或scala,熟悉抓取框架,有分布式、垂直領(lǐng)域開發(fā)經(jīng)驗;3、熟悉Web抓取原理及技術(shù)實現(xiàn)細節(jié),對HTTP協(xié)議和HTML有深入了解;4、熟悉數(shù)據(jù)抓取和整合技術(shù),從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取信息; 5、熟悉Redis和NoSQL存儲,有數(shù)據(jù)庫調(diào)優(yōu)和海量數(shù)據(jù)存儲經(jīng)驗。 以下經(jīng)驗之一者優(yōu)先考慮: 1、熟悉搜索相關(guān)技術(shù),有自然語言處理、機器學(xué)習(xí)經(jīng)驗者優(yōu)先; 2、有摘要提取、大規(guī)模網(wǎng)頁聚類經(jīng)驗者優(yōu)先