網(wǎng)絡(luò)爬蟲工程師
職位描述
-?參與公司所需的爬蟲系統(tǒng)架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫設(shè)計(jì);
-?負(fù)責(zé)網(wǎng)絡(luò)爬蟲的核心技術(shù)研究和開發(fā),參與各種核心搜索策略、算法、數(shù)據(jù)聚類、重組的設(shè)計(jì)與開發(fā);
-?設(shè)計(jì)策略和算法,提升網(wǎng)頁抓取的效率和質(zhì)量;
-?分析爬蟲系統(tǒng)的技術(shù)缺陷,對策略架構(gòu)做出合理地調(diào)整和改進(jìn)。
-?能夠快速且有效的進(jìn)行數(shù)據(jù)清洗語文本挖掘
-?了解HTTP協(xié)議和各種Web前端技術(shù)(PHP/CSS/HTML/JavaScript/AJAX等)
崗位要求:
-?3年以上Java、python或C/C++開發(fā)經(jīng)驗(yàn),熟悉常用的信息抓取策略和數(shù)據(jù)重組算法;
-?精通信息抓取和整合技術(shù),從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息,掌握正則表達(dá)式;
-?熟悉大規(guī)模網(wǎng)頁爬取,深度網(wǎng)頁爬取,熟悉Nutch、Scrapy、Lucene、Heritrix、Solr、Sphinx等工具優(yōu)先考慮;
-?了解Mongodb、HBase、HIVE等NoSQL數(shù)據(jù)庫,并精通關(guān)系型數(shù)據(jù)庫的開發(fā);
-?熟悉網(wǎng)絡(luò)爬蟲相關(guān)技術(shù),如有分類、聚類、索引、檢索等相關(guān)開發(fā)經(jīng)驗(yàn)者優(yōu)先。
-?英語流利者,精通計(jì)算機(jī)軟硬件維護(hù)者優(yōu)先