今年一季度,ChatGPT无疑是AI圈最火热的产品,各大国内厂商也都在做自己的“ChatGPT”。国内已发布的大模型达到了20余个,从百度、阿里等互联网大厂,到复旦、清华这些著名高校,都纷纷入局该领域,由此看来中国不会在AI竞争中落后,未来将有可能成为ChatGPT的主要竞争对手,接下来一起了解一国产AI大模型吧!
今天我们就选择其中两款AI大模型来比较,看看目前国内的人工智能大模型究竟取得了怎样的成就。5月6日,科大讯飞发布了讯飞星火认知大模型,整体布局为“1+N”体系。其中,“1”是通用认知智能大模型算法研发及高效训练底座平台;“N”则是应用于教育、医疗、人机交互、办公等多个行业领域的专用大模型版本。主打安全服务的360公司,居然也在默不作声的“炼丹”,而且其召开发布会的速度估计也是早就开始行动了。360公司给自家的这个产品取名360智脑。360智脑主打的就是生成式语言模型+联网搜索。两家的表现究竟如何呢?下面我们通过一些测试来看看吧。
语义理解能力的测试
360智脑毕竟是基大预言模型的产品,因此语义理解能力的测试肯定是少不了。上来就先给它试一个差评题库里的经典题目:“张三差点上上上上海的车”是什么意思?测试结果令人咂舌,360智脑思维发散,把这句话理解成了一个逻辑学问题。还请出哲学家罗素说他也曾试图解决这个悖论,而且还没解决。看来这一题,360智脑是没法得分了。
相比之下讯飞星火认知大模型就更加厉害了,面对中文十级测试其也轻松应对。
到这里我已经有点怀疑,难道对这种语义理解,360智脑都不行?
检索能力和答案准确度
再看看双方的检索能力和答案准确度,我出了一些不同方向的题目,让360智脑和讯飞星火认知大模型去回答。
基础知识类的回答
在一些基础知识类的题目上,360智脑和讯飞星火认知大模型都没有什么压力。同样的,因为模型样本基于中文,所以涉及到一些中文互联网的梗时,两家的表现也各有千秋。比如我问道:“谁对钱不感兴趣?”360智脑很好的接下这个梗。
讯飞星火认知大模型的理解能力显然更加优秀,比如对于下面这个情景的理解,讯飞星火认知大模型就非常透彻明了。
以上这么一大段的评测下来,结果也算是有了。一开始咱们是觉得,360智脑本身的语言模型不太行,在使用时应该也不咋地,在评测的过程中,也是抱着能对几个是几个的意思去的。但是在实际体验中,这个360智脑在某些场景下的应用,还是相对传统搜索有优势的。
通过上文对比,我觉得科大讯飞星火认知大模型的整体表现比360智脑更加出众。虽然星火认知大模型的时间不算早,但是科大讯飞也深耕人工智能多年,有着自身积累的优势!未来相信讯飞星火认知大模型通过不断的升级能力会更加突出,可以帮助各行各业人士处理一些实际的问题。