职位&公司对比
职位详情
- 北京
- 1-3年
- 大专
- 数据抓取
- 网络爬虫
- 数据采集
采BOSS直聘集软件的编写,采集,清洗,整理,储存。也可kanzhun灵来自BOSS直聘活形式合作。
职位详情
- 北京
- 3-5年
- 本科
- Scrapy
岗位职责: 1、负责通用spider的信息抽取和技术算法的研发,提升数据采集的效率和质量 2、负责设计开发超大规模的分布式以及海量公开数据采集技术,支撑百亿千亿级数据采来自BOSS直聘集落地。包括但不限于调度算法、监测网页更新、高质量网页数据的监测等算法相关技术来自BOSS直聘,提升采集的性能及效率 3、负责抓取策来自BOSS直聘略的设计与研发,包括链接筛选算法的开发,网页质量排名算法,通过历史数据动态更新网页的排名策略,主题侧重的自适应爬虫系统的设计与实现 4、负责构建完善的监控机制,实时监控爬虫状态及数据kanzhun质量,包括但不限于反爬虫策略 任职要求: 1、精通python/Java/c++中至少一种编程语言 2、熟悉主流的爬虫采集框架,如Scrapy/bossSelenium等 3、有扎实的数据结构以及算法基础 4、有搜索引擎的通用爬虫系统建设者优先 5、参与过大型分布式爬虫系统设计、优化以及成功的经验 6、有抓取策略算法设计经验者优先
技能解析
暂无识别出相关技能要求
技能解析
- 设计经验
- 数据质量
- 编程语言
- 设计开发
- 算法相关
- 设计与研发
- 系统的设计
- 数据结构
- 系统建设
- 算法基础
- 算法设计
- 系统设计
- 搜索引擎
- 数据采集
数据来自CSL职业科学研究室
工作时间
公司福利
- 节日福利
- 零食下午茶
- 带薪年假
- 五险一金
- 企业文化