小米大模型团队音频推理突破,一周登顶MMAU榜,GRPO算法显神威!

小米大模型团队近日宣布,在音频推理技术方面取得了显著进步。该团队受DeepSeek-R1项目的启发,成功将强化学习算法应用于多模态音频理解任务,这一创新实践仅耗时一周,便在国际权威的MMAU音频理解评测中取得了64.5%的准确率,成功登顶榜首,并且已经同步开源。
据悉,DeepSeek-R1项目中提出的Group Relative Policy Optimization(GRPO)方法,使得模型能够通过“试错-奖励”机制自主进化,展现出类似人类的反思和多步验证等高级推理能力。小米团队受此启发,尝试将GRPO算法迁移到自家的Qwen2-Audio-7B模型上,取得了令人瞩目的成果。
在训练样本方面,小米团队仅使用了AVQA数据集中的3.8万条样本进行强化学习微调,便在MMAU评测集上实现了64.5%的准确率。这一成绩不仅刷新了记录,而且相比目前榜单上排名第一的商业闭源模型GPT-4o,有近10个百分点的优势。
尽管取得了如此显著的进步,但小米团队表示,当前模型的准确率距离人类专家的82%水平仍有差距。他们将继续努力,不断优化算法和模型,以期达到更高的准确率。
在官方提供的交互demo中,小米团队选择了雷军2015年“R U OK”的视频作为默认分析对象,展示了模型在实际应用中的表现。这一选择不仅富有趣味性,也体现了小米团队对于用户需求和场景理解的深入洞察。
小米技术官微在发布这一消息时表示,音频推理技术的突破将为智能语音助手、智能家居等领域带来更加智能和人性化的体验。他们期待与更多合作伙伴共同探索这一技术的广阔应用前景。
小米团队还强调了开源的重要性。他们认为,通过开源可以吸引更多开发者参与到技术的创新和优化中来,共同推动人工智能技术的发展和进步。
本文链接:http://knowith.com/news-1-9427.html小米大模型团队音频推理突破,一周登顶MMAU榜,GRPO算法显神威!
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
四川大学考研(四川大学考研分数线)
舟山研究生考点在哪里 北大佛学院有多厉害
医学学硕(医学学硕与专硕的区别)
贵州师范大学考研科目(贵州师范大学考研科目代码)
郑州可以读研的学校 河南考生考研是不是占优势
一个差等生的考研奋斗史
2023考研条件(2023考研条件变动)
农业管理硕士太好考(农业管理硕士太好考小红书)
2019年考研政治参考pdf(2019年考研政治参考及答案解析(完整版))
测绘研究生去哪里?测绘研究生去哪里工作
海纳川:苹果id贷24小时放款,苹果id贷款口子下载
大发利:苹果id贷流程,苹果id贷款口子下载
知行合一:羊小咩额度怎么套现,试试这六个方法
印度普拉替尼代购渠道最新流程有哪些呢?普拉替尼2025最新价格是多少?
指南一览!2025印度布加替尼哪里买?有那些购买渠道对比测评!现在购买靶向药印度布加替尼(Brigatinib)多少钱一盒:印度布加替尼价格约4400元!市场售价及购买渠道正式公布!
今天2025公开:印度格列卫价格yb出炉:特价550元一盒
如登春台:南昌西湖区代还信用卡放心的选择,需要的请联系
喜从天降:上海松江区代还信用卡垫还,最便宜的地方,值得信任
摊上:白条秒到点位,亲测五种教程有效
指导!能套花呗的平台(花呗套线商家分享)