通义千问和文心一言哪个更好用?

通义千问和文心一言大PK:通义千问让天下果然没有难做的生意今日4月7日中午,阿里云宣布自研大模型“通义千问”开始邀请用户测试体验。“通义千问”自己回答是:“通义千问”这个名字来源于......

通义千问和文心一言哪个更好用

接下来具体说说

对比文心一言、通义千问,讯飞星火V3.5能否领跑国产通用大模型?

在近日讯飞星火认知大模型V3.5发布会上,科大讯飞董事长刘庆峰公布了新版讯飞星火大模型在各项能力指标上的提升率,并将对标GPT4的能力对比测试差异也一并公开,其中包括语言理解、数学能力等表现已经完全超越了GPT4 Turbo,代码、多模态等能力也已经大幅拉近与后者间的差距。

通义千问和文心一言哪个更好用? 通义千问和文心一言哪个更好用?

在一系列变化和公开成就的催生下,我们也对全新的讯飞星火认知大模型V3.5充满了好奇。为此,我们针对新版本发布会上提到的关于自然对话、逻辑推理、创作应用以及多模态等方向分别对其进行了体验性测试,并在测试过程中参考了国内另外两款同样被公认为名列前茅的通用大模型平台“文心一言”和“通义千问”。

此次讯飞星火认知大模型V3.5发布的同时,讯飞也同台公布了讯飞语音大模型,这并不是意味着星火认知大模型具备了语音识别,因为星火起初就支持语言识别与回复功能,而是讯飞在语音大模型的构建上纳入了全息拟定超拟人人机交互能力,使得语音理解和回答拥有完全人与人对话的拟真效果,让交流感更加自然连续,从而呈现出一种与自然人进行情感化对话的高度。

通义千问和文心一言哪个更好用?

在GPT进入人类生活之前,AI语音是停留在程序范本的阶段,我们似乎也熟悉了这种冷淡的下达指令,然后等待另一端回复一个生硬的合成音。而在星火认知大模型V3.5上,与你进行对话的已经不再是一个机器,从主观感受上,你将体会到一个具有温度的智慧。

我们站在对方是自然人的立场上为了一个相对没有特定性回答的问候式问题,比如“马上春节了,你们什么时候放假?”在新版的连续对聊功能中,你收到的则一个没有固定版样的回应。且整个对话过程中,星火认知大模型V3.5会混入一些语气助词,来模拟人类思考时所产生的表述,这种有来有回的表述明显让整个对话过程表现的非常有人气,或者说极其自然。

站在这个角度来说,星火认知大模型V3.5并不仅仅是将一些拟人态混入其中,关键的是提升了语义理解,如果你问的是一个看起来并不像问题的问题,那么星火也照样可以表现的令人满意。但如果我们把同样的问题抛给文心一言和通义千问,那么回答就明显表现的机器化。

通义千问和文心一言哪个更好用?

话说回来,目前通用大模型有的时候看似是为了解决问题而特定被工具化,但是如果我们回一下早先siri诞生的时候,大多人似乎并不是将它当成一个助手使用,而是被当成了或调侃,或发泄,甚至倾诉的地方,那么从这个角度来理解,星火认知大模型的这次升级,不仅仅是具有明显的交互升级,在未来机器人中基于更拟人态的表达,同样也是产品在应用中差异化的形式。

其实作为通用大模型最为基本的就是语义理解和运用,在对比测试方向上,我们先简单的来看看星火认知大模型V3.5的基础表现。问题是:如何理解“在乎你的我只在乎我在乎的你是否像在乎你的我在乎我在乎的你一样在乎在乎你的我”这句话?其实表面上看这句话好像很绕,但实际上起到干扰作用的都是“定状补”,如果把“主谓宾”挑出来,这个句子就是那么回事。

通义千问和文心一言哪个更好用?

三个通用大模型其实都能理解其中意思,个人感觉通义千问表现的最为好,星火也非常不错,但是文心一言不知为何对于一个只有靠前二人称的句子为何在解析的时候出现了第三人称,让人看的有些云里雾里。

接着我们再来测试下代码编译方面的表现,我们选择了一个相对代码复杂度并不高,但是数学逻辑较高的问题“用python实现:输入一个整数,将其分解质因数,例如输入90,输出90=2*3*3*5”。

执行结果三款国产大模型的差距还是非常明显的,其中星火输出正确,并且语句逻辑赫执行效果都没有任何问题。文心一言也较为完整的完成了整个代码的编译过程,但是语句的简洁性明显要差点,而通义千问可能并没有完整的理解题面,导致在编写过程中更多的纠结在例句的实现上,并且逻辑多次发生错误,基本以失败告终。

数学是通用大模型的基础和重点,我们此次选择了一个英文题面的数学题,通过翻译、语义、数学三个层面综合考察星火V3.5的表现。

结果三个平台给出了三个不同的答案。经过人工演算,证实星火给出的答案是正确的,行驶中的这节火车长度为60米,但是文心一言和通义千问都答错了。

逻辑推理此前在国产通用大模型的表现喜忧参半,所以面对升级当属必考项。在这里我们用一个相对偏中等难度的题目来看看三平台的差异。题面不再单独细讲,可参见

截图。结果其实一目了然,星火以非常简单清晰的逻辑推算出了正确的结果。文心一言也非常准确的给出了正确答案,而惟独通义千问在推演过程中出现了明显偏差,给出了错误答案。

其实从上面的测试过程不难发现,讯飞星火3.5在语言理解和运用语言进行执行方面近乎达到了完美,而这也恰恰是讯飞在语言语音领域二十多年来的积累和建树所形成的行业技术壁垒,不过这一领先并不代表讯飞星火3.5已经完全无懈可击。同样在多模态测试中,发现讯飞星火在AI视觉方面依然存在短板。

比如我们截取了一张来自于vivo手机官方网站关于X100系列两款机型的规格表,然后询问三个通用大模型哪款机型更轻薄,通义千问和文心一言可以准确的识别出图片表格中关于机身尺寸的三围参数并进行对比,然而讯飞星火V3.5似乎更像是在猜,答案也完全是错误的。

小结:

实测:通义千问和文心一言大PK,前者让天下果然没有难做的生意

通义千问和文心一言大PK:通义千问让天下果然没有难做的生意

今日4月7日中午,阿里云宣布自研大模型“通义千问”开始邀请用户测试体验。“通义千问”自己回答是:“通义千问”这个名字来源于两个方面,“通义”意味着该模型具有广泛的知识和普适性,可以理解和回答各种领域的问题。“通义千问”这个名字表达了这款人工智能语言模型的强大功能和广泛适用性。

来吧,现场比武,四个回合。

靠前回合:果然竞争对手比自己更了解自己

写一个通义千问发布内测的新闻稿,总得来说,“文心一言”胜过“通义千问”,把事情都说清楚了,但是大家都没搞清楚什么是新闻稿,缺少基本的5W1H。

阿里云宣布,其自研的大型自然语言处理模型“通义千问”已经开始邀请用户进行测试体验。据悉,该模型具有强大的文本生成和对话能力,已经在多个领域得到了广泛的应用,包括金融、医疗、教育等行业。

通义千问作为阿里云的重要成果之一,旨在为用户提供更加智能、高效的自然语言处理解决方案。据公司介绍,该模型在构建过程中,经过了数千名志愿者数年的努力,积累了海量的文本数据和语料库,并通过了多项严格的评测和验证,确保了模型的高效性和准确性。

现阶段,通义千问正在阿里云官网上进行公开测试,感兴趣的用户可以前往官网注册测试资格。据了解,测试期间,用户可以免费试用该模型,并提供反馈和建议,帮助模型不断优化和升级。

通义千问的发布,标志着阿里云在自然语言处理领域的技术实力和创新能力再次得到了提升。我们期待着通义千问能够在未来的应用中发挥更大的作用,为用户带来更加智能、高效的自然语言处理体验。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,

不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

于是,我又问了另外一个有关“新闻”的话题。有关AGI最近一个月的新闻。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

实际上,生成式AI在新闻撰写方面的是非常有突破的,可以自动生成符合新闻报道要求的文本内容。这种技术可以帮助新闻媒体和写手,提高他们的效率和质量,降低人力成本。

在新闻报道方面,生成式AI已经被广泛应用,例如,通过对大量数据的分析和学习,可以生成一些特定领域的新闻报道,例如财经、科技、体育等。同时,生成式AI也可以自动生成新闻标题、摘要和简介等内容。

另外,生成式AI也可以被用来生成各种文本内容,例如广告语、简介、简报、故事等。这些内容可以通过生成式AI的自动化生成来节省时间和成本,使新闻媒体和写手能够更专注于深度报道和深度分析。

显然,两者都没搞清楚什么是新闻,特别是“文心一言”。

第二回合,关于道歉,前后逻辑和延续问题

我最近在看一本书,是《信心的博弈:现代中央银行与宏观经济》,是中信的一本新书。我想写书评,于是:

编辑切换为居中

添加图片注释,不超过 140 字(可选)

我打错字了,是“信心”,不是“信息”。不管是“信息”的博弈,还是“信心”的博弈,貌似都没找对书。

于是,我继续沟通,书名我依然是错的输入,“通义千问”和“文心一言”都没发现,对,老婆是不可能有错误的,但是都继续聊下去了,承认错误来的很快,和夫妻俩吵架老公的道歉速度一样。但是“通义千问”负责道歉,且说自己错在哪里——每次我道歉,我老婆也要我说错在哪里,否则道歉太没诚意了……不过,“通义千问”忘记了为什么道歉,没有继续最开始的需求是写书评,“文心一言”道歉之后,把书评写完了。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

第三回合:用狗、猫、老鼠,3个词语写篇作文,300字以内

看下面的图,上图是“通义千问”。这是我和余之一玩的一个游戏。阿里的结果还是不错的,而且字数是300多一点,百度是在写科普,字数有400多,完全忽略了要求;

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

《猫、老鼠和狗》,这篇是我写的,299字,大家看:

一个名字叫“狗”的小女孩,养了两只宠物,一只猫,一只老鼠。

猫喜欢吃鱼,老鼠喜欢吃牛肉;猫喜欢跑来跑去穿来穿去,老鼠喜欢趴着不动;他们俩吃不到一块儿,玩不到一块儿,是冤家死对头。

那是一个寒冷的冬天。风呼呼的吹,树上仅有的几片叶子都掉光了,天空飘着鹅毛大雪,马路上落的雪被来来往往的小汽车压的脏兮兮的,有坑的地方已经结了冰。寒冷让人的心情也不是很好。

狗出门去海鲜市场买鳕鱼给猫、买牛肉给老鼠做晚餐,非常不幸,海鲜市场检测出了新冠病毒,狗刚去市场,就被封闭起来了,只能进不能出,这该怎么办!

“都怪你,要吃鳕鱼,吃点死虾不行吗?”,老鼠埋怨猫。

“都怪你,要吃牛肉,吃点玉米不行吗?”,猫埋怨老鼠。

“狗什么时候回来啊?我们今晚吃什么?

“我今晚吃你”,猫说,“我忍你很久了!”

“啊……”老鼠惨叫一声,被猫吞进肚子了。

对我的作文,自我点评一下:

一、我对结果的发生,做了充分的铺垫:1、他们本身关系就不好;2、遇到天气恶劣心情不好;3、主人因为疫情造成晚餐没着落。

二、文学语言上,环境的描写还是蛮到位的,画面感足够。

三、整体结构:一头一尾很简单,重点是在过程(时间地点人物时间原因都写清楚了)。

四、我老婆说这文章没“中心思想”,我觉得,这就像学画画得学素描一样,素描个毛线啊,要啥中心思想啊。哈哈哈

AIGC是非常考验prompt的,于是我把题目里面增加了“童话”,再看:

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

生成式AI有一个很大的应用就是娱乐、文学、戏剧,目前“通义千问”和“文心一言”对冲突、人物、角色、性格的理解,几乎为0,别说撰写了。宣传的写情书,这些都是套路吧,用不上的,死心吧,谈恋爱还是得靠自己。

第四回合:让天下果然没有难做的生意

看下面的图,上面是“通义千问”。显然,“通义千问”是真的理解了我的题目,“文心一言”完全是打酱油。我后面换了其他的输入问“文心一言”,惨不忍睹,就不截图了。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

那么,在新白酒的推广方面,这2个人都是套路,唯一给我惊喜的是,“文心一言”提醒我注意品质,确保白酒的质量符合国家标准和消费者需求,提高消费者对品牌的信任度和忠诚度。

“通义千问”为什么没有提示我在淘宝做直播呢?

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

不过总得来说,还是“通义千问”厉害,产品名称里面,巧妙的借用了生产地址中的“宋河”,还有“香”字。甚至,“宋河头曲”到目前为止,是没有商标注册的,几乎是可以使用的。

兄弟们,等着买这款酒,哈哈哈。

以上就是通义千问和文心一言哪个更好用?的详细内容,希望通过阅读小编的文章之后能够有所收获!

版权:本文由用户自行上传,观点仅代表作者本人,本站仅供存储服务。如有侵权,请联系管理员删除,了解详情>>

发布
问题