職位類別:
崗位職責: 1. 遵循robots 協(xié)議,對互聯(lián)網公開信息進行采集; 2. 負責網頁信息抽取技術算法的研究和開發(fā),提升數據采集的效率和質量; 3. 負責設計和開發(fā)分布式的網絡數據采集技術,能獨立解決實際開發(fā)過程碰到的各類問題(優(yōu)化調度、并發(fā)、覆蓋率等) ,提升數據采集的效果與性能; 4. 負責數據采集解析入庫、系統(tǒng)異常監(jiān)控與警報等。 任職要求: 1. 具備扎實的編程能力、優(yōu)秀的設計能力和代碼品味,具有強烈的責任心 2. 熟練掌握HTML、JavaScript、Python、Scrapy等,能快速完成采集腳本的編寫; 3. 了解主流網絡數據采集技術和框架工具,如Selenium/Puppeteer/PhantomJS/Scrapy等; 4. 了解NLP基本技術,實際使用過如 Fasttext、N-gram、Bert、GPT 等算法和模型者優(yōu)先; 5. 熟悉常見限制訪問服務器資源和獲取數據技術,具備相關的實戰(zhàn)經驗。
浙江省杭州市拱墅區(qū)浙江省杭州市拱墅區(qū)環(huán)城北路169號匯金國際大廈查看大圖
杭州深度求索人工智能基礎技術研究有限公司
行業(yè): 互聯(lián)網/電子商務 規(guī)模: 100-200 性質: 私營·民營企業(yè) 當前職位: 高級數據采集工程師(AGI)
DeepSeek,全稱杭州深度求索人工智能基礎技術研究有限公司。DeepSeek是一家創(chuàng)新型科技公司,成立于2023年7月17日,使用數據蒸餾技術,得到更為精煉、有用的數據 。 由知名私募巨頭幻方量化孕育而生,專注于開發(fā)先進的大語言模型(LLM)和相關技術。經營范圍包括技術服務、技術開發(fā)、軟件開發(fā)等。 投遞網站:https://app.mokahr.com/social-recruitment/high-flyer/140576#/