崗位描述:負(fù)責(zé)大規(guī)模文本、圖像、視頻、音頻、APP等數(shù)據(jù)的抓取、結(jié)構(gòu)化信息抽取、內(nèi)容分析、垃圾過(guò)濾、質(zhì)量識(shí)別等工作。?包含:1.?爬蟲(chóng)、結(jié)構(gòu)化提取和內(nèi)容分析相關(guān)功能開(kāi)發(fā)2.?爬蟲(chóng)、結(jié)構(gòu)化提取和內(nèi)容分析相關(guān)工具平臺(tái)的研發(fā)崗位要求:1.?本科以上,從事java或C++開(kāi)發(fā)2年以上;2.?熟悉linux開(kāi)發(fā)環(huán)境,熟練使用shell/python/perl/awk等至少一種腳本編程;3.?具備過(guò)硬的編碼能力、扎實(shí)的數(shù)據(jù)結(jié)構(gòu)和算法功底;4.?理解http協(xié)議,熟悉html,DOM,xpath;5.?熟悉抓取和頁(yè)面解析類(lèi)庫(kù),能進(jìn)行頁(yè)面結(jié)構(gòu)化數(shù)據(jù)提?。?、熟悉垂直搜索爬蟲(chóng)、分布式網(wǎng)絡(luò)爬蟲(chóng)者優(yōu)先考慮;?7.?有搜索引擎、數(shù)據(jù)挖掘相關(guān)經(jīng)驗(yàn),能夠使用hadoop、storm、spark等相關(guān)平臺(tái)者優(yōu)先考慮;8.?工作認(rèn)真細(xì)致踏實(shí),有較強(qiáng)的學(xué)習(xí)能力。