商汤大模型“商量”多个评测表现超ChatGPT,用户可申请试用
商汤科技近日公布的自研中文语言大模型“商量SenseChat ”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先ChatGPT,实现了我国语言大模型研究的突破。
(资料图)
目前,已有近千家企业客户通过申请,应用和体验“商量SenseChat ”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量SenseChat ”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
三大评测基准结果:“商量”综合能力超ChatGPT
商汤科技公布的评测结果中,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量SenseChat ”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT4的水平。
l由美国加州大学伯克利分校等高校构建的多任务考试评测集MMLU;
l微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);
l由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;
MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。
在该评测中,“商量SenseChat ”综合得分为,远超GLM-130B(分)的得分,同时还超过了ChatGPT(分)、LLaMA-65B(分)仅落后GPT-4(分),位居第二。在各主要子评测集中的表现如下:
图中粗体表示结果最佳,下划线表示结果第二
AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20 种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。
在该评测中,“商量SenseChat ”测出的分数,遥遥领先GLM-130B(分)、LLaMMA-65B(分),并再次超越ChatGPT(分),仅次于GPT-4的分。在其中的AGIEval(GK)评测子集中,“商量SenseChat ”以分全面领先,仅微弱差距落后GPT-4(分)。细分科目评测结果如下,其中带GK的是中国高考科目:
图中粗体表示结果最佳,下划线表示结果第二
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。
面对C-Eval评测基准,“商量SenseChat ”拿到了的分数,在参评的18个大模型中,仅次于GPT-4(分),全面领先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一众海内外大模型。其中,C-Eval(Hard)子评测集,是选择了8个具有挑战性的数据、物理和化学科目,进一步考核大语言模型的推理能力,“商量SenseChat ”也表现居于前列。
图:最新C-Eval排行榜
(来源:/static/)
技术创新+客户落地,推动“商量”能力快速持续提升
今年4月,商汤正式发布“商汤日日新SenseNova”大模型体系,以及自研中文语言大模型“商量SenseChat”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。
在“百花齐放”的市场格局中,通过对比成绩与表现,我们可以了解各大预言模型的特点与差异,并且直观地了解每个大语言模型当前的智能水平。目前“商量SenseChat ”实现了对超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。
例如在需要大量文案工作的场景中,“商量SenseChat ”可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A等,有效提高企业员工的生产效率。在客户服务场景中,“商量SenseChat ”还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。
此外,“商量SenseChat ”还拥有广泛的知识储备,能够结合企业自身所在行业的专有数据,非常高效地打造满足企业需要的高阶知识库,帮助实现更智能化的知识库管理。“商量SenseChat ”还是高水平的AI代码助手,能够极大帮助提高开发效率,实现新的二八定律,即80%的代码由AI生成,20%则由人工生成。
商汤大语言模型能力的提升源于更多高质量中文数据的训练学习,得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型增强推理能力的同时,减轻了传统大模型的幻觉问题。
想申请试用“商量SenseChat ”的用户,可登录:
https://lm_/document/authentication
作者:沈湫莎
责任编辑:任荃
*文汇独家稿件,转载请注明出处。
标签:
- 商汤大模型“商量”多个评测表现超ChatGPT,用户可申请试用
- 打开“莫扎特盲盒”,认识莫扎特
- 青岛即墨:防溺水 迎暑假 世界观热点
- 俄军利用新型无人机展开攻击
- 记者:利雅得胜利优先考虑签B罗,本周将尝试再签一名大牌中场
- 概伦电子(688206)6月21日主力资金净卖出35.74万元
- Redmi K60 Ultra关键参数敲定:1.5K直屏+天玑9200+芯片
- 当前简讯:宁波港(601018):6月21日北向资金减持50.62万股
- 遇到这六种领导要小心,即便领导说话再好听,也要小心
- 物流板块6月21日跌1.33%,厦门象屿领跌,主力资金净流出5453.88万元
- 贝尔:美职联对输球比欧洲接受度高,梅西肯定会喜欢那里的 世界速讯
- 世界观天下!奔流不息的近义词_给大家讲解一下
- 苹果宣布WWDC20Swift学生挑战赛获奖者
- 全球新资讯:618天猫白酒“第一”,剑南春拿得住吗?
- 陈子豪老婆的直播间 陈子豪老婆_全球热闻
- 黄金三角形调整仍有涨-环球速看
- 【昔日女神】藤井奈奈 -- 藤井なな
- 全球聚焦:C视频丨2023年熊猫中心首只熊猫宝宝在神树坪基地出生
- 铝单板氟碳漆喷涂一平多少钱_氟碳漆多少钱一平方 天天短讯
- 即时:停航三年今复航,成都到伊斯坦布尔可直飞了!
- 潮汕肖米烧麦_潮汕肖米-当前速看
- EPC项目:设计牵头与施工牵头有哪些不同?
- 《秀我中国 | 新时代中国乡村志(第四集):千年梯田 十年新生》
- 美锦能源(000723)6月21日主力资金净买入1412.46万元-环球观天下
- 这里,夏季草莓别样甜!
- 每日视点!沪指跌超1%失守3200点,AI概念股午后掀跌停潮,两市超4100股飘绿
- 【快播报】刷机精灵刷机教程华为(刷机精灵刷机教程)
- 大摩:予快手-W增持评级 目标价85港元_天天新消息
- 退市中昌:公司股票6月29日终止上市暨摘牌_天天讯息
- 2024款埃安AION V Plus将于今日上市 小幅升级