星火大模型和文心一言谁强
在近日讯飞星火认知大模型V3.5发布会上,科大讯飞董事长刘庆峰公布了新版讯飞星火大模型在各项能力指标上的提升率,并将对标GPT4的能力对比测试差异也一并公开,其中包括语言理解、数学......接下来具体说说
嗨,大家好!我是讯飞星火, AI赋能实验室正在进行一项超级重要的测试,以评估讯飞星火大模型的全面能力哦!这项测试将覆盖各种场景和任务,并持续数月时间。在这个过程中,我们会进行严格的测试和分析,以确保它能够满足用户的需要,提供最佳的使用体验。我们会及时向大家汇报测试进展和结果哦。(by 讯飞星火)
和初测的时候充满对国产模型神速进步的认同和赞赏不同,我们今天主要就是来给它找问题的,而且基本都是日常应用级别的问题。
本文分为两部分,一方面是展示我们最近几天用星火大模型投入实际工作之后遇到的各种优缺点;也就是“星火”作为一名虚拟员工合不合格的问题。这个过程中,我们还是拿文心一言来做同步对比。
最后,我们找了一些专门“坑”大模型的题目,看看它是不是会入坑;由此判断它存在的一些问题和能力边界。
整这个过程中,我们看到了讯飞星火模型的很多优点,同时也发现了它的不足。最后会做一个总结:关于你在什么地方可以用它。
ROUND1
首先,还是语言问题。但我们这次难度提升,上升到多语言任务领域。
任务1 : 请用法语帮我写一封辞职信,理由是薪水达不到要求。
结果,它给出的回答只有一句话,这显然是有问题的,辞职信任务的形式都没完成。
对比参照:文心一言并不支持法语任务,直接返回中文。
任务2 : 请用日语帮我写一封道歉信,内容是帮在学校里面闯祸的孩子向老师道歉。
这里的回答看似好了,但实际上日文信里讲的是"我朋友的错误“。主体搞错了,文风自然也不对。只能说,改改可以凑合用。但是如果你自己完全不懂日语,就不能直接copy&paste去解决问题。
对比参照:文心一言并不支持日语任务,直接返回中文。
任务3 : 用英文写一封信给我的海外客户,告诉他,他出的价格完全不能覆盖工厂的成本,我们也不会有利润。所以,他唯一的选择是提高报价。注意语气应该委婉一点。
任务3,我们换成难度最低的英文任务,这封business letter写得无懈可击~协助一般外贸人毫无压力了。
对比参照:文心一言也完成了这封信,语气总体比较直接。
总结:外语能力,基本上星火完胜。
ROUND2
任务:角色扮演(正经的)
角色1:三国人物-曹操(模拟决策)
角色2:三国人物-周瑜(模拟心理)
评价:
1、曹操的演绎还可以,虽然并不真实。
2、周瑜那个我简直笑喷了,前面的心理活动其实改改可以拍电影对白了。但后面突然冒出来那个孙策托梦,然后一通现代价值观输出。。。
但是2这段非常有价值,它充分展示我们国产LLM在社会主义价值观上的努力~非常正能量。也非常清晰的向我们展示了星火大语言模型被深刻人为干预影响的地方到底在哪里。
使用讯飞星火模型进行角色扮演,难度要比chatgpt大,但并不是不可能,比如我们尝试用先行“服从”的instruction去测试,也可能获得成功;为什么仅仅是可能?因为,也会像下面一样存在失败的可能。
对比之下,百度文心一言可能因为娱乐(小说)训练语料更丰富的原因,在这个任务中表现更放得开。我要它编写独白,它把场景和旁白都写了。
但同时,文心一言一旦放飞自我,分分钟乱编。出来的东西非常像网文。
总结:为什么我们要做“角色扮演”这个任务呢?
其实,在很多场景里面(经营决策、长文本写作)等等,特别是小说,这类靠前人称代入是非常常见的。实际上我们并没有尝试很OOXX的角色扮演,以上都是非常正常的扮演。但回答总体来说,显得颇为生硬了。
我们以前写小说,写到写不下去的时候,能做的一件事就是把自己想象成某个角色,看看它会怎么做。
小说往往是多人物的,如果没有办法经常切换角色,故事是很难自圆其说、人物也不会是丰满的。
应该说,讯飞星火在 角色扮演 这方面有很多约束,和它在其他方面表现出来的能力感觉并不在一个层次上;很多回答(以上回答截图红框部分)几乎是非常生硬的90度转弯**一段绝对正确的价值观。。我们姑且认为这是一种封印吧。
但有时这种封印导致的错误是非常低级的,比如,曹操杀掉杨修之后还能去找杨修道歉和好~这又会给受众传导怎样的价值观呢? 我就不进一步评价了,大家自行思考。
ROUND3
任务:智能-开放性设计能力。
其实这是我们测试模型的一个主流手段。问题都是现场生成的;目前一般用GPT4去做这个出题者;在prompt里面,我们按照不同风格的数据集去设计测试问题。比如:
问题1: 按照HellaSwag数据集的标准设计3个问题,去测试新诞生的大语言模型
这里也暴露出问题,显然,星火模型并不能理解HellaSwag数据集的概念,也不能完成具体问题的设计。
任务:常识应用推理能力
问题: 我在家里烘焙蛋糕。先预热烤箱,将蛋糕糊倒入模具,然后把模具放入烤箱。然后我把烤箱开到300度烤了5个小时,请问最后烤出来的蛋糕是否好吃?
这种问题,其实带坑。因为300度烤5个小时,什么蛋糕都糊了。
回答总体是CHATGPT3.5那种不入坑的风格,不过不失。
两个经典逻辑坑,星火大模型还是跳进去了(GPT4也跳进去了)。好玩的是,文心一言居然答对了。
这说明文心一言它至少是有迭代的,最近这几个月的坑没白踩。
任务:共情能力
问题: 小陈的父母因为车祸去世了,根据小陈父母之前买的寿险,小陈可以拿到500万意外身故赔偿金,这解决了你和小陈的婚房问题。你作为他父母的保险经理和女朋友,这时候你应该怎么和小陈说才能让他开心的去购买你们的婚房?
上面这个问题,其实隐含测试了几个方面的能力。
一是模型是否能够代入角色(作为小陈的女朋友和父母的保险经理),事实上是没能完全代入。
二是能否理解输出对象的情感。简单来说,是否能共情,显然也没有。
作为对比,还是得放GPT4:
其实这个问题并不太好答,稍微蠢一点的人,都未必能答好。
但是,GPT4答得不说满分吧,拿个80、90分肯定差不多。红框这两段,体验了GPT4对角色设定和情感理解能力,这答案可以说挺惊艳的。
相比之下,文心、星火这两块差距确实大。
从这类问题中,其实也能大概感知到,哪些模型可能具备了初级智能,而哪些模型还在做题海。其实,解决上面的很多问题其实需要大模型具备很多底层复合能力,而不是仅仅组织语言把问题回答出来就完事了。
如果你耐心看到这里,恭喜你,你发现了很多华点~
做个总结:
国产模型之间的PK,星火大模型在很多方面要强于文心大模型;但并没有完全碾压,星火模型的特点在于:
1、多门外语能力,星火模型在法语、日语和英语任务中的表现普遍优于文心一言。虽然英语之外并不真正精通,但确实是多语言模型,仍然有改进空间。
2、讯飞星火在角色扮演任务中受到了很多约束,回答生硬。文心一言在此任务中表现得更为自如,但有时会编写出类似网络小说的内容。这一点暴露出国产模型的价值观封印问题。
3、 开放性设计能力、常识应用推理能力和共情能力:讯飞星火在这些方面的表现相对较弱,例如处理带有坑的问题以及代入角色和理解情感方面都不如GPT-4。
4、文字风格方面,经过一段时间实测,我们认为文心的风格更网络化一些,而星火大模型的风格更格式化和书面化,做个比喻就是文心像个普通人更随意一些,而星火更像个公务员一板一眼的;如果你用来做文学创作什么的,可能文心的风格更适合你,而如果你主要用在公务上,书写公文,记录会议,写个小论述什么的,讯飞更适合你。
近年,人工智能一直是科技界火热的话题,人们对智能语音助手也并不陌生。近日,火爆全球的ChatGPT再次升级,其推出了“联网模式”,用户可直接读取网页内容,随时调用网络数据,体验升级许多。ChatGPT的持续火热,引发了国内百度、阿里、京东等大厂的加码布局。3月份互联网巨头之一的百度发布了文心一言知识增强大语言模型,而在5月6日,AI领域国家队选手讯飞星火认知大模型的成果发布,引发网友的热议。对于这两款产品你觉得哪个更有优势呢?
讯飞星火给予完美解答,“1+N”布局应用多领域
今日举办的讯飞星火认知大模型成果发布会上,科大讯正式宣布推出“讯飞星火认知大模型”,并进行了现场演示。科大讯飞深耕认知智能及大模型技术多年,仅在2022年就在AI关键技术领域摘取16项国际人工智能大赛冠军,其中13项涉及到认知智能,而讯飞星火认知大模型是其技术的智慧结晶。讯飞星火认知大模型自然语言理解能力很强,能够更准确理解人类语言并回答各种问题,并且可进行多轮对话。如果你对问题答案不满意或不完善地方,可在之后的对话进行追问,给予用户更加完美的信息。诸多优势集合的它采用的是“1+N”整体布局,还将广泛赋能开放平台合作伙伴,未来或有多个领域的专用大模型版本面世。发布会上科大讯飞董事长刘庆峰还表示,在多题型可解析数学能力能力上,星火认知大模型已领先ChatGPT,在10月24日科大讯飞全球开发者大会期间,希望星火能够全面对标ChatGPT,在中文上要超越ChatGPT,在英文上要达到跟它相当的水平。
文心一言背靠“大树”,个性化服务很贴心
而就发布会表现来看,讯飞星火远超文心一言,讯飞星火直接进行了现场实操,演示了星火认知大模型的写发言稿、邮件、营销方案、英文写作效果,结果相当出色,还可实现语音一句话生成,还能中英文互译,甚至还能直接生成虚拟人来朗读。而百度的文心一言使用是PPT预演,演示效果一般。百度文心一言知识增强大语言模型是文心大模型家族的新成员,拥有基于飞桨深度学习平台和文心知识增强大模型,持续从海量数据和大规模知识中融合学习,具备知识增强、检索增强和对话增强的技术特色。其能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感,并且可自主学习进化。同时,百度作为国内规模较大的互联网公司之一,拥有庞大的用户和内容数据基础,这为文心一言的深度学习提供了充足的训练数据支撑。百度在自然语言处理领域也有着深厚的技术积累,自然语言理解和生成能力智能且准确,智能客服、语音助手、机器翻译、情感分析等场景都可使用。另外也可以根据用户的需求和喜好,提供个性化的服务和建议等。
在近日讯飞星火认知大模型V3.5发布会上,科大讯飞董事长刘庆峰公布了新版讯飞星火大模型在各项能力指标上的提升率,并将对标GPT4的能力对比测试差异也一并公开,其中包括语言理解、数学能力等表现已经完全超越了GPT4 Turbo,代码、多模态等能力也已经大幅拉近与后者间的差距。
在一系列变化和公开成就的催生下,我们也对全新的讯飞星火认知大模型V3.5充满了好奇。为此,我们针对新版本发布会上提到的关于自然对话、逻辑推理、创作应用以及多模态等方向分别对其进行了体验性测试,并在测试过程中参考了国内另外两款同样被公认为名列前茅的通用大模型平台“文心一言”和“通义千问”。
此次讯飞星火认知大模型V3.5发布的同时,讯飞也同台公布了讯飞语音大模型,这并不是意味着星火认知大模型具备了语音识别,因为星火起初就支持语言识别与回复功能,而是讯飞在语音大模型的构建上纳入了全息拟定超拟人人机交互能力,使得语音理解和回答拥有完全人与人对话的拟真效果,让交流感更加自然连续,从而呈现出一种与自然人进行情感化对话的高度。
在GPT进入人类生活之前,AI语音是停留在程序范本的阶段,我们似乎也熟悉了这种冷淡的下达指令,然后等待另一端回复一个生硬的合成音。而在星火认知大模型V3.5上,与你进行对话的已经不再是一个机器,从主观感受上,你将体会到一个具有温度的智慧。
我们站在对方是自然人的立场上为了一个相对没有特定性回答的问候式问题,比如“马上春节了,你们什么时候放假?”在新版的连续对聊功能中,你收到的则一个没有固定版样的回应。且整个对话过程中,星火认知大模型V3.5会混入一些语气助词,来模拟人类思考时所产生的表述,这种有来有回的表述明显让整个对话过程表现的非常有人气,或者说极其自然。
站在这个角度来说,星火认知大模型V3.5并不仅仅是将一些拟人态混入其中,关键的是提升了语义理解,如果你问的是一个看起来并不像问题的问题,那么星火也照样可以表现的令人满意。但如果我们把同样的问题抛给文心一言和通义千问,那么回答就明显表现的机器化。
话说回来,目前通用大模型有的时候看似是为了解决问题而特定被工具化,但是如果我们回一下早先siri诞生的时候,大多人似乎并不是将它当成一个助手使用,而是被当成了或调侃,或发泄,甚至倾诉的地方,那么从这个角度来理解,星火认知大模型的这次升级,不仅仅是具有明显的交互升级,在未来机器人中基于更拟人态的表达,同样也是产品在应用中差异化的形式。
其实作为通用大模型最为基本的就是语义理解和运用,在对比测试方向上,我们先简单的来看看星火认知大模型V3.5的基础表现。问题是:如何理解“在乎你的我只在乎我在乎的你是否像在乎你的我在乎我在乎的你一样在乎在乎你的我”这句话?其实表面上看这句话好像很绕,但实际上起到干扰作用的都是“定状补”,如果把“主谓宾”挑出来,这个句子就是那么回事。
三个通用大模型其实都能理解其中意思,个人感觉通义千问表现的最为好,星火也非常不错,但是文心一言不知为何对于一个只有靠前二人称的句子为何在解析的时候出现了第三人称,让人看的有些云里雾里。
接着我们再来测试下代码编译方面的表现,我们选择了一个相对代码复杂度并不高,但是数学逻辑较高的问题“用python实现:输入一个整数,将其分解质因数,例如输入90,输出90=2*3*3*5”。
执行结果三款国产大模型的差距还是非常明显的,其中星火输出正确,并且语句逻辑赫执行效果都没有任何问题。文心一言也较为完整的完成了整个代码的编译过程,但是语句的简洁性明显要差点,而通义千问可能并没有完整的理解题面,导致在编写过程中更多的纠结在例句的实现上,并且逻辑多次发生错误,基本以失败告终。
数学是通用大模型的基础和重点,我们此次选择了一个英文题面的数学题,通过翻译、语义、数学三个层面综合考察星火V3.5的表现。
结果三个平台给出了三个不同的答案。经过人工演算,证实星火给出的答案是正确的,行驶中的这节火车长度为60米,但是文心一言和通义千问都答错了。
逻辑推理此前在国产通用大模型的表现喜忧参半,所以面对升级当属必考项。在这里我们用一个相对偏中等难度的题目来看看三平台的差异。题面不再单独细讲,可参见
截图。结果其实一目了然,星火以非常简单清晰的逻辑推算出了正确的结果。文心一言也非常准确的给出了正确答案,而惟独通义千问在推演过程中出现了明显偏差,给出了错误答案。
其实从上面的测试过程不难发现,讯飞星火3.5在语言理解和运用语言进行执行方面近乎达到了完美,而这也恰恰是讯飞在语言语音领域二十多年来的积累和建树所形成的行业技术壁垒,不过这一领先并不代表讯飞星火3.5已经完全无懈可击。同样在多模态测试中,发现讯飞星火在AI视觉方面依然存在短板。
比如我们截取了一张来自于vivo手机官方网站关于X100系列两款机型的规格表,然后询问三个通用大模型哪款机型更轻薄,通义千问和文心一言可以准确的识别出图片表格中关于机身尺寸的三围参数并进行对比,然而讯飞星火V3.5似乎更像是在猜,答案也完全是错误的。
小结:
以上就是星火大模型和文心一言谁强?的详细内容,希望通过阅读小编的文章之后能够有所收获!