职位&公司对比
职位详情
- 郑州
- 1-3年
- 本科
岗位职责: 1、负责分布式网络爬虫系统设计,搭建系统框架,开发分布式网络爬虫系统。 2、负责数据的抓取、提取、数据分析等工作,满足业务部门对数据的需求。 3、设计和优化数据抓取策略,能够应对各种反爬策略,提高数据抓取的效率和质量。 4、理解数据需求,快速响应和解决数据相关问题。 5、建立和维护数据抓取任务的监BOSS直聘控系统直聘,确保数据抓取的稳定性和及时性。 任职要求: 1、计算机相关专业本科及以上学历,有2年以上爬虫开发经验。 2、精通Python语言,至少熟练掌握主流爬虫框架中的一种; 3、熟悉常见反BOSS直聘爬机制,验证码识别,IP代理池、应用Ip池、js逆向、headers认证和cookie等; 4、有来自BOSS直聘处理大规模数据的经验,对分布式爬虫有实际操作经验者优先。 5、良好的问题解决能力,善于沟通和团队合作,喜欢研究新技术,能够在压力下工作。
职位详情
- 郑州
- 3-5年
- 本科
- python
- 计算机软件
- 分布式爬虫
- 爬虫开发
- 数据采集
- 金融
职位描述: 1、负责网络爬虫系统平台的架构设直聘计与开发(如抓取调度,多样化抓取,页面解析和结构化抽取)、技术选型; 2、研究爬虫策略和防屏蔽规则,解决封账号、封IP、验证码、混淆加密,算法还原,so层,页面跳转等难点攻克,提BOSS直聘升网页抓取的效率和质量; 3、对抓取后的数据进行清洗、存储等,并持续优化平台,以便满足各种爬取业务需求。 岗位要求: 1. 精通Linu来自BOSS直聘x/UNIX,精通Python语言,至少熟练掌握主流爬虫框架中的一种; 2. 了解各种加密算法,在破解验证码方面有丰富经验,能够独立解决js反爬和模拟登陆问题; 3. 熟练掌握正则表达式、XPath、CSS等网页信息抽取技术; 4. 熟悉常见反爬机制,验证码识别,IP代理池、应用Ip池、headers认证和cookie等; 5. 熟练掌握应直聘用Selenium、PhBOSS直聘antomJS、Splash、Puppeteer实施动态抓取; 6. 熟悉熟练使用charles、fiddler等抓包工具者优先; 7. 熟悉数据清洗,能够用numpy、pandas、jieba等工具对数据进行处理者优先; 8. 熟悉mysql、mongodb、redis、rabbitMQ、kafka、spark者优先; 9. 对有金融数据抓取清洗经验优先; 工作时间: 上午8:30-12:00,下午13:00-5:30,周末双休,国家法定节假日正常带薪休假。 薪资待遇:10000-12000,年底13薪 试用期3个月 条件优异者,工资面议。
技能解析
- 问题解决能力
- 善于沟通
- 数据分析等
- 数据分析
- 开发经验
- 善于沟通和
- 数据相关
- 系统设计
- 理解数据
- 团队合作
- 解决能力
- 问题解决
数据来自CSL职业科学研究室
技能解析
- 加密算法
- 独立解决
- 熟悉数据
- 抓包工具
- 架构设计
- UNIX
- 数据清洗
数据来自CSL职业科学研究室
工作时间
工作时间
公司福利
- 五险一金
- 工龄奖
- 带薪年假
- 员工旅游
- 节日福利
公司福利
- 五险一金
- 带薪年假
- 节日福利
- 零食下午茶