百度的“new bing”终于来了,但我想说别高兴得太早。-凯发旗舰
本文原创于微信公众号:差评 作者:差评君
昨天,百度搜索突然小范围内测了对话式 ai 。号称对标 new bing ,还具有联网能力。
如果是真的,那百度这回,又是国内第一家整出有联网功能大模型的公司了。
巧了的是,差评君也刚好拿到了资格,又能带大家赶个热乎的了。
废话不多说啊,咱们就上手试试这个对标 new bing 的百度新产品。
如果你是能抢先体验的用户,在百度搜索界面的引导栏里,你就能看到排在第一个的 ai 对话。
点进去之后,整体的聊天界面非常简洁。使用方法跟 new bing 一样,都是对话形式。
至于跟自己的亲哥文心一言,到底有啥区别,它本人是这么说的。
不是一个东西,不是一个模型,甚至不是一家公司,。。。
但据报道,这个对话 ai ,明明是基于文心一言开发的。
但考虑到new bing 也曾“ 发表 ”过自己是百度家产品的炸裂言论,毕竟对大语言模型来说,偶尔胡言乱语也算正常。
这玩意真能联网吗?所以为了验证它连上网线没,差评君赶紧着问了道测联网的问题:
百度发布智能手机。
这回,它给了我正确的回答,并且贴上了资料来源的 “ 百家号 ” 链接。
起码证明了,百度的这个产品,确实是能够联网的。
既然这样,咱们干脆来个横评测试,看看百度和new bing 两个联网大模型的能力到底谁比较厉害。
这不,今天上午,热腾腾的 nba 比赛刚刚结束。那第一题,就问它们:nba 最新比分。
结果让差评君有点吃惊, new bing 和百度居然都犯了同样的错误。
两个参赛选手抓取的网页都是对的,都贴了 nba 凯发旗舰官网的链接。但是,尽管已经翻到了对的那一页,两个选手总结出来的比分都错了。
热火和尼克斯真正的比分是 103 : 112 ,湖人对勇士是 106 : 121 。
怎么对着答案抄,居然都能抄错的。。
第一局,双方都没得分。
那第二题,我们来点最近的互联网热梗——华语乐坛新四大天王。
虽然在我提示之后,百度抓取到了正确的文章链接,给出了一份对的人员名单。
但是,当差评君追问到代表作的时候,百度这小子又忘了,现在的华语乐坛,到底谁是真天王了。
至于 new bing 这边,全程发挥稳定,一首“ 雪distance ”惊艳全场。
这场华语乐坛角逐,到底还是微软技高一筹。
而第三题,我觉得还是犯璞归真,聊聊咱们普通人搜索概率更大的问题。
结果,百度可以通过调用百度天气的数据,给你更精准的资料,甚至还有一个赏心悦目的图注。
而 new bing 就有点傻傻分不清楚了,直接把 “ 接下来5天 ” 理解成了过去 5 天的天气情况。
1比1平,局面顿时焦灼了起来。
那决胜的最后一题,差评君想试一些联网功能,给日常生活带来的便利。
这里,我让它们给我规划一下路线:从创景路到 in77 最快的路线。
本来,百度有自家的百度地图,差评君觉得这一局,应该是百度稳赢。
结果出乎意料的是, new bing 居然抄着百度的家伙,把百度 ai 给碾压了。
new bing 直接调用了百度地图,很快就规划出了一条可用的路线。
虽然答案稍微有点小问题,因为 19 号线地铁刚刚开通到创景路。new bing 提供的 5 号线,已经不是最快方案了。
但是,不管怎么说,比百度的回答好。。
它给出的几个路线全都不对,尤其是第一条步行的建议,更是相当炸裂。
创景路距离 in77 有 19 公里,一刻不停的走,也得走 4 个小时 34 分钟。。
但经过北京小伙伴的测试,它其实是能用调用百度地图的。
至于究竟是怎么一个调用逻辑,咱家不太清楚了。
这么几轮血战下来,在 new bing 面前,百度还是略显逊色的。
总的来看,百度的搜索 ai 肯定是有联网能力的,这个是没有异议的。
但可能因为还是内测,使用起来很不稳定,比如抓取的资料内容质量不高、对链接文章内容总结不准确等等。
只不过让我比较纳闷儿的是,有些时候,这个对话 ai 可能还不如身为 “ 离线划水 ” 的文心一言,来的靠谱。
就拿我们首测文心一言的经典案例 “ 松鼠桂鱼的做法 ” 来说。
如果说文心一言平平淡淡的发言只能给 60 分的话。
那这个对话 ai ,就只能算 30 分。
答案不够详细就算了,甚至还在抄人家卷子的时候,把隔壁同学的名字都给抄过来了。
引用链接里,人家分享说自己 “ 厨房灯光暗,改刀看不清楚! ” ,百度把这种 “ 口水话 ” 都照搬上去。
这不是无脑打小抄的小学僧嘛。
当然了,这也不能全怪百度。
差评君觉得,主要还是目前互联网上,互相都不够开放的原因。比如百度就不容易抓到微信上的内容。
再加上,百度ai 引用的链接更倾向是百度百科等百度系的内容,自产直销。
这么一来,导致参考的资料可能不够多元,就容易出问题。
不过,针对这个问题,已经把 ai 玩出花来的编辑部同事,就给我安利了一个小妙招。可以通过英文互联网的资料译回中文,直接曲线救国。
还真别说,内容质量好像有肉眼可见的提高。
但是,引用不准确还可以理解,一些基本大模型能力,怎么也比文心一言逊色不少。
后面又试了几道弱智吧问题,基本招招致命。
怎么还质疑起游戏npc 造假了
关于 “ 张三差点没上上上上海的车 ” 的问题,明明它差一点就理解对了。
结果,当我给它开个了后门——再给他一次机会的时候,他不仅直接选择 “ 摆烂 “ ,甚至还通过引用数据来吓唬我。
让你引用数据的时候,引用错了,顶嘴的时候,又引用得比谁都快。。
当然了,百度这次的新产品,也不是没有优化升级的。
除了联网之外,还跟 bing 一样,支持对话文成图。甚至在页面左下角,开了一个叫 “ 灵感中心 ” 的东西。
里面全都是各种 ai 生成的小工具,比如解梦、抽象画,甚至还有赛博求签。。
粗看起来,是有点儿ai 应用商店那味儿了
而且,在使用过程中,差评君发现这个对话 ai ,好像一直致力于给你解决更具体的问题。
既然它这么渴望,我就给他们来一道加时赛——应用题。
说实话,光看这个标题倒是挺惊艳的。
结果,我想让百度顺便给我生成对应图片的时候,它就罢工了。
这牛脾气,真不知道是跟谁学的。
最后,我只能指名道姓地说出描述对象,让它给我画个欧洲早餐店图。
当然,出于合规的要求,还是会显示 ai 作图的水印,这该死的求生欲。
为了公平起见,我们也用 new bing 重复了这个步骤,分别生成了一段文案和一张图。
生成图片
最后,咱们把两个图片和文案,同时丢到小红书上。看看到底谁的效果更好。
虽然百度的浏览量会越高一丝,但是 bing 比百度多了两个点赞数。所以这道题就算是开放式题目了,具体哪个更好,相信每个茶友都有自己的答案。
最后总结一下,整体玩下来,还是能感觉到百度这产品和 new bing 的客观差距。
但是考虑到,这只是初代版本,并且也还只是在小范围测试,以目前 ai 的更新速度来看,相信很快就会有体验上的提升。
北京航空航天大学的教授吴文峻说过一个观点,生成式 ai 的特点就是生成,所以不可避免会出现幻觉问题。
解决这个问题的唯一办法,就是需要更长的技术演进。要用看待人类学习进化的观点,去看待 ai 的发展。
至少在差评君看来,在微软一骑绝尘的 ai 时代,百度能做出来,并且敢推出这个产品,已经是相当不易了。
首先我们要有,这样才能谈演进,谈进化。
图片、资料来源:
独家|百度文心一言发布,我们拿到内测账号试了试,效果出乎意料
对标必应聊天:百度搜索小范围公测“对话”功能,基于文心一言大语言模型