职位&公司对比

招聘中
  • 计算机软件
  • 未融资

职位详情

  • 合肥
  • 1-3年
  • 本科
  • 大数据处理经验
  • 机器学习经验
  • Spark
  • 计算机相关专业
  • Python
  • 数学/统计相关专业

【岗位描述】 1.负责大模型预训练数据的清洗、去噪与结构化处理,构建高质量语料库,支持模型训练需求。 2.设计并实现基于PythonBOSS直聘高效数据处理Pipeline,优化数据预处理流程,提升数据质量。 3.擅长对接数据采集(上游)与模型训练(下游),制定数据规范、质量监控及闭环优化策略,确保数据-模型高效协同。 【核心技能要求】 1.编程能力 a. 熟练掌握Python语言,熟练使用正则表达式,掌握面向对象编程及类的继承等,有html,json等数据处直聘理经验。 b. 熟练掌握Linux,能够自主进行conda环境配置与依赖管理,擅长使用grep/awk/sed等命令进行文本处理。 c. 具备NLP实战经验,熟悉中文分词技术,掌握文本分类模型训练流程及调优方法,有实际项目经验 2.加分项 a. 熟悉lxml,Bea直聘utifulSoup等技术,有一定的爬虫经验。 b. 熟悉DeepSeek、通义千问等国来自BOSS直聘产大模型的选型、量化、推理加速及ollama部署,具备Prompt工程和RAG优化等垂直领域适配经验。 c. 熟练部署并优化开源工具,掌握容器化封装、性能调优及生产级落地能力,确保高效稳定服务于业务场景。 d. 有spark分布式和并发数据处理经验; 【任职资格】 1.本科及以上学历(学信网可查),计算机、数据科学、人工智能相关专业。 2.2年以上数据清洗/处理经验,有LLM或NLP项目经验者优先。 3.具备良好的数据敏感度,能独立解决复杂数据问题。 4.强烈的责任心与团队协作能力,适应快节奏技术迭代。

职位详情

  • 合肥
  • 1-3年
  • 硕士
  • 大数据处理经验
  • 计算机相关专业
  • 数学/统计相关专业

大模型数据挖掘工程师 职位描述: 1.负责大模型(LLM)训练数据的采集、清洗、去噪与结构化处理,构建高质量语料库。 2.设计并实现基于Python的高效数据处理Pipeline,优化数据预处理流程,提升数据质量。 3.开发自动化工具检测和修复数据中的偏见、毒性、重复等问题,确保数据合规性。 4.参与多模态数据(文本、图像、音频)的预处理与特征工程,支持模型训练需求。 5.与算法团队协作,分析数据分布并提出数据增强方案,提升模型泛化能力。 核心技能要求: 1.编程能力 a.精通Python及主流数据处理库(Pandas、NumPy); b.熟悉正则来自BOSS直聘表达式、字符串处理及文本分析技术; c.有分布式和并发数据处理经验; 2.数据工程能力: a.掌握数据清洗关键技术(去重、标准化、实体识别、噪声过滤等)。 直聘 b.熟悉SQL/NoSQL数据库(MySQL、MongoDB等)及大数据存储格式(Parquet、HDF5)。 c.了解数据质量评估指标(如一致性、完整性、时效性) 3.大模型相关经验: a.理解大模型数据需求(如指令微调数据、R来自BOSS直聘LHF数据格式处理)。 b.熟悉常见开源数据集(如Common Crawl、Wikipedia、Reddit等)的预处理方法kanzhun。 4.加分项: a.熟悉PyTorch/TensorFlow数据加载(Dataset/DataLoader优化)。 b.有数据脱敏、隐私保护(GDPR合规)经验。 c.掌握爬虫框架(Scrapy、BeautifulSoup)或API数据采集。 任职资格: 1.本科及以上学历,计算机、数据科学、人工智能相关专业。 2.3年以上数据清洗/处理经验,有LLM或NLP项目经验者优先。 3.具备良好的数据敏感度,能独立解决复杂数据问题。 4.强烈的责任心与团队协作能力,适应快节奏技术迭代。

技能解析

专有技能
  • 面向对象
  • 质量监控
  • 性能调优
  • 优化策略
  • 面向对象编程
相同技能
  • 数据质量
  • 数据处理经验
  • 编程能力
  • 数据清洗
  • 数据敏感
  • 数据科学
  • 数据敏感度
  • 与团队协作
  • 协作能力
  • 独立解决
  • 团队协作
  • 团队协作能力
  • 模型训练
  • 数据处理
  • 数据采集

数据来自CSL职业科学研究室

技能解析

专有技能
  • SQL数据库
  • 自动化工具
  • 熟悉SQL
  • 关键技术
  • 工程能力
  • 分析数据
  • 数据存储
  • 隐私保护
  • 数据挖掘
相同技能
  • 数据质量
  • 数据处理经验
  • 编程能力
  • 数据清洗
  • 数据敏感
  • 数据科学
  • 数据敏感度
  • 与团队协作
  • 协作能力
  • 独立解决
  • 团队协作
  • 团队协作能力
  • 模型训练
  • 数据处理
  • 数据采集

数据来自CSL职业科学研究室

工作时间

上午09:00   -   下午06:00

工作时间

上午08:30   -   下午05:30
双休偶尔加班

公司福利

  • 节日福利
  • 餐补
  • 全勤奖
  • 保底工资
  • 绩效奖金
  • 年终奖

公司福利

  • 交通补助
  • 生日福利
  • 节日福利
  • 通讯补贴
  • 免费班车
  • 零食下午茶
  • 餐补
  • 员工旅游
  • 带薪年假
  • 夜班补助
  • 绩效奖金
  • 年终奖
  • 定期体检
  • 补充医疗保险
  • 五险一金
  • 食堂
首页 | 合肥招聘 · 数据挖掘招聘 | 合肥数据挖掘招聘 | 安徽九联正远教育大模型数据挖掘工程师招聘 | 安徽九联正远教育大模型数据挖掘工程师 怎么样
更新于 2025-05-13