职位&公司对比

招聘中

语音识别

-K
  • 社交网络
  • B轮
招聘中

多模态算法工程师-音频

-K·薪
某大型互联网公司

职位详情

  • 北京
  • 1-3年
  • 本科
  • 数据分析
  • 人工智能
  • 深度学习

创新-融合-包容-开放 本直聘bossBOSS直聘以上学BOSS直聘

职位详情

  • 北京
  • 3-5年
  • 硕士
  • 语音合成
  • 语音识别
  • 语音后端

职位描述 1. 从事语音、音效、音乐等音频类算法的设计、优化和高效训练,达到SOTA的音频大模型效果; 2. 参与音频大模型的系统构建和开发,探索数据/模型scaling相关的前沿技术; 3. 参与构建高效的数据处理平台工具,进行大规模数据处理和分析; 4. 探索通用的音频多模态建模技术,探索前沿技术,解决业界实际问题。来自BOSS直聘 职位要求 1. 本科及以上学历,计算机科学、人工智能、自动化、数学、物理等相关专业优先; 2. 有语音合成与识别、音频生成、音乐生成、自然语言处理等研究或者技术背景者优先; 3. 拥有大模型训练和优化经验者优先,包括LLM、TTS/ASR大模型、音频理解大模型、音乐生成大模型等; 4. 深刻理解各类生成式模型者优先,比如自回归、GAN、VAE、Flow、Diffusion/flow-matching等; 5. 掌握音频处理流程的各个模块,包括语音合成前端,语音增强,语音识别,说话人日志(diarization), 强制对齐(force alibossgnment) ,并有相关模块训练和推理经验; 6. 具备扎实的编程基础,熟练掌握Python/C++等主流语言一种或多种,熟练应用pytorch、tensorflow、huggingface等深度学习框架和库; 7. 发表过领域顶级会议文章(NeurIPS、ICML、ICLR、ACL、Interspeech、ICASSP等)、相关实习经验或者ACM竞赛获奖者优先; 8. 具备良好的学习能力、逻辑思维能力和沟通协作能力,积极主动,责任心强。

技能解析

    暂无识别出相关技能要求

    技能解析

    专有技能
    • 深度学习框架
    • 编程基础
    • CASS
    • 深度学习
    • 数据处理和分析
    • 逻辑思维能力
    • 语音合成
    • 沟通协作
    • 沟通协作能力
    • 协作能力
    • 自然语言
    • 模型训练
    • 音频处理
    • 学习能力
    • 逻辑思维
    • 数据处理

      数据来自CSL职业科学研究室

      公司福利

      • 生日福利
      • 节日福利
      • 有无线网
      • 住房补贴
      • 团建聚餐
      • 零食下午茶
      • 餐补
      • 带薪年假
      • 节假日加班费
      • 加班补助
      • 股票期权
      • 保底工资
      • 绩效奖金
      • 年终奖
      • 定期体检
      • 补充医疗保险
      • 五险一金

      备注

      职位发布者未明确表明公司信息,具体可咨询职位发布人进行确认。

      更新于 2025-05-14