崗位職責(zé):
1. 負(fù)責(zé)爬蟲(chóng)項(xiàng)目的需求分析與方案設(shè)計(jì),針對(duì)各類目標(biāo)網(wǎng)站(如公開(kāi)數(shù)據(jù)平臺(tái)、行業(yè)資訊站點(diǎn)等)制定高效、合規(guī)的爬取策略
2. 獨(dú)立完成爬蟲(chóng)程序的開(kāi)發(fā)、調(diào)試與優(yōu)化,熟練運(yùn)用requests、Scrapy、BeautifulSoup、Selenium等工具,解決反爬機(jī)制(如IP封鎖、驗(yàn)證碼、動(dòng)態(tài)加載)問(wèn)題
3. 負(fù)責(zé)爬取數(shù)據(jù)的清洗、解析、存儲(chǔ)(如MySQL、MongoDB)及質(zhì)量校驗(yàn),確保數(shù)據(jù)的準(zhǔn)確性、完整性和時(shí)效性
4. 維護(hù)現(xiàn)有爬蟲(chóng)系統(tǒng)的穩(wěn)定運(yùn)行,監(jiān)控?cái)?shù)據(jù)抓取狀態(tài),及時(shí)處理異常情況(如網(wǎng)站結(jié)構(gòu)變更、爬取效率下降)并迭代優(yōu)化
5. 與數(shù)據(jù)分析師、產(chǎn)品經(jīng)理等協(xié)作,根據(jù)業(yè)務(wù)需求輸出標(biāo)準(zhǔn)化數(shù)據(jù)成果,支撐業(yè)務(wù)決策與產(chǎn)品迭代。
崗位要求:
1. 本科及以上學(xué)歷,計(jì)算機(jī)、軟件工程、數(shù)據(jù)科學(xué)等相關(guān)專業(yè)優(yōu)先,3-5年P(guān)ython爬蟲(chóng)開(kāi)發(fā)經(jīng)驗(yàn),有大規(guī)模分布式爬蟲(chóng)、高并發(fā)數(shù)據(jù)抓取項(xiàng)目經(jīng)驗(yàn)者優(yōu)先
2. 精通Python語(yǔ)言基礎(chǔ),熟練掌握爬蟲(chóng)核心庫(kù)(requests、Scrapy、lxml、PyQuery)及異步爬蟲(chóng)技術(shù)(aiohttp、asyncio)
3. 熟悉常見(jiàn)反爬手段(UA偽裝、Cookie池、IP代理池、滑塊驗(yàn)證識(shí)別),能獨(dú)立設(shè)計(jì)應(yīng)對(duì)方案
4. 掌握HTML/CSS/JavaScript解析,能處理動(dòng)態(tài)渲染頁(yè)面(如Selenium、Playwright、Pyppeteer)
5. 熟練使用至少一種數(shù)據(jù)庫(kù)(MySQL/MongoDB/Redis),具備數(shù)據(jù)清洗、格式轉(zhuǎn)換及批量處理能力