崗位描述:負責大規(guī)模文本、圖像、視頻、音頻、APP等數(shù)據(jù)的抓取、結構化信息抽取、內(nèi)容分析、垃圾過濾、質量識別等工作。?包含:1.?爬蟲、結構化提取和內(nèi)容分析相關功能開發(fā)2.?爬蟲、結構化提取和內(nèi)容分析相關工具平臺的研發(fā)崗位要求:1.?本科以上,從事java或C++開發(fā)2年以上;2.?熟悉linux開發(fā)環(huán)境,熟練使用shell/python/perl/awk等至少一種腳本編程;3.?具備過硬的編碼能力、扎實的數(shù)據(jù)結構和算法功底;4.?理解http協(xié)議,熟悉html,DOM,xpath;5.?熟悉抓取和頁面解析類庫,能進行頁面結構化數(shù)據(jù)提取;6、熟悉垂直搜索爬蟲、分布式網(wǎng)絡爬蟲者優(yōu)先考慮;?7.?有搜索引擎、數(shù)據(jù)挖掘相關經(jīng)驗,能夠使用hadoop、storm、spark等相關平臺者優(yōu)先考慮;8.?工作認真細致踏實,有較強的學習能力。