当前位置:首页 >  聚焦  > 正文

科大讯飞AI超越ChatGPT!

时间:2023-05-07 04:10:11     来源:物联网智库


(资料图)

资料来源:讯飞星火官网

作者:Alex

物联网智库 原创

导读

今天,在安徽合肥滨湖国际会展中心召开的讯飞星火认知大模型成果发布会上,刘庆峰详细介绍了科大讯飞认知大模型“1+N”的能力,“1”是通用的认知智能大模型,“N”则是大模型在各个领域的落地,包括了教育、办公、汽车、数字员工四大领域。 此前,在4月20日晚间的投资者交流会上,科大讯飞董事长刘庆峰宣布,将原本计划在四季度发布的讯飞星火认知大模型,提前到5月6日(今日)发布。这一次看似不经意的调整,实际上却反映了其早已被险象环生的外部环境逼到的背水一战的地步。 去年11月,惊艳亮相的ChatGPT可以说着实打了全球所有AI公司一个措手不及,国内AI企业更是像被“赶鸭子上架”一样拉到了台前,百度“文心一言”、阿里“通义千问”、360“智脑”、商汤“日日新”、昆仑万维“天工”、达观数据“曹植”、智源研究院“悟道2.0”、复旦“MOSS”……一时间“万家齐发”,很快促成了如今的“百模大战”的名场面。 但有ChatGPT珠玉在前,国内亮相的大模型虽然也尽力挖掘亮点,但总有瓦片难当的感觉,无法让人一下产生与ChatGPT初次相遇时的“惊艳感”。因为大模型仅仅凭借生成式AI这一纯粹的亮点来吊起外界的胃口显然已经不够了,如果不能够实实在在看到对社会生活生产产生的根本性、全面性的影响和重塑,也只不过是重复造车轮子罢了。今天,在安徽合肥滨湖国际会展中心召开的讯飞星火认知大模型成果发布会上,刘庆峰给出了科大讯飞的答案,同时也亮出科大讯飞临时起意调整星火认知大模型发布时间的底气。刘庆峰介绍了科大讯飞认知大模型“1+N”的能力,“1”是通用的认知智能大模型,“N”则是大模型在各个领域的落地,包括了教育、办公、汽车、人机交互以及医疗等等。除此之外,刘庆峰还宣布了,即日起科大讯飞在教育、办公、汽车、数字员工四大领域的硬件产品将基于讯飞火星大模型实现升级,提供更加智能化的语言理解能力,提升用户的使用体验。

星火大模型也可以喊“遥遥领先”

刘庆峰表示,当前通用人工智能最令人关注的有7个维度,分别是文本生成、语音理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力,这7个方面能力的提升,可以让通用大模型带给人类生活方式颠覆式的变革,产生新的机遇。在会上,刘庆峰联手科大讯飞研究院院长刘聪,现场展示了星火认知大模型这7大类核心能力。 在多风格多任务的本文生成能力方面,它可以帮助使用者撰写发言稿、邮件、新闻通稿、营销方案等等。现场,刘聪使用星火认知大模型撰写了一篇欢迎稿,续写了一段孙悟空与奥特曼潜入今天会场后争当星火认知大模型发言人的创意小故事,还尝试编写了邮件和品宣文案等等。从结果来看,星火大模型出文速度很快,且续写故事增添了更多新的元素,比如在孙悟空和奥特曼之外,它还自主编撰了一位神秘的老者。当然,依照老规矩,如果不满意也能够根据需要多次点击,让这些文案生成不同的新版本。 另外,除了中文的文本生成能力之外,英文撰写也不在话下。刘庆峰介绍,星火大模型从研发的第一天就立足于多语种,因此中英文是同步。他还透露,在刚刚过去的五一小长假期间,科大讯飞的翻译机同期销量增长了200%多,几乎成了出国必备的神器。 当然,在这样一个多元化的世界里,文本格式并不是固定的。现场,刘聪演示了文本生成的多风格能力,比如生成小红书风格的文案,开口就是“小姐姐”也赢得了现场观众的拍手叫绝。刘庆峰自豪的说:“根据中科院人工智能智能产业学院、创新联盟以及长三角人工智能产业链细分任务,在这些任务中,在目前已经推出的认知大模型中,科大讯飞的测试结果是明显领先的,中文水平已经超过了ChatGPT,英文如果以满分5分来算,现在ChatGPT是4.48分, 我们已经达到了4.29分,已在快速的进步之中。” 在语言理解方面,星火大模型在多层次跨语种的语言理解方面具有较高的水平,比如对英文单词、语法、时态等检查,最高级别能够达到对情感的分析。刘庆峰表示,目前对英文的语法句式以及关键单词的纠错能力,星火大模型已经做到了业界最强,它不仅可以使用在讯飞的学习产品中,甚至可以应用于商务及海外交流当中。 同样在中文方面,有很多时候汉语的造句通常是模棱两可的,需要根据使用情景做出判断。比如刘庆峰现场举例,“小明拿到了冠军,他默默地站了1分钟”和“刘聪上课被老师批评,他默默地站了1分钟”,同样是针对“默默地站了一分钟”,星火大模型可以避免掉入机器“鱼香肉丝”“红烧狮子头”这类表面文字的陷阱中,从而分析出前者是高兴自豪的心情,后者是难过反思的心情。 刘庆峰表示,语言理解将来是认知大模型调用各种插件和工具最核心的一项能力,根据测评,科大讯飞在481项测试维度中有119项详细任务跟语言理解有关。虽然与CahtGPT相比尚有细微差距,但在国内,星火大模型在国内可测的现有系统中是遥遥领先的! 在知识问答方面,现场星火大模型能够快速回答关于生活、科学、常识、医学甚至是“玄学”等多个领域的知识,比如在向其询问了“量子科学的产业应用涵盖了哪些领域”后,刘庆峰又接着问到“量子纠缠和心灵感应是不是一回事”这一被刘聪调侃为“玄学”的问题。出乎意料的是星火大模型并没有像此前多个大模型一样发生翻车现象,不仅没有瞎编乱造答案,甚至还给出了“两者是完全不同的概念”的标准答案。 刘庆峰介绍,星火大模型给出这些答案,是基于中国科学院的支持,通过大量的科技文献中不断训练的结果。目前还有很多问题还在研究中,未来它不仅会根据历史问题给出答复,甚至还会对未来的展望给出使用者建设性的意见。比如在医学方面,通过与医疗机构的合作,星火大模型未来会变成个人的智能医疗助理。目前,科大讯飞只启用了讯飞医疗专业系统中的部分医疗大模型,原因是医疗需要更加严谨对待,同时要符合相关的法规,未来这些专业的能力将通过与医疗机构的合作逐渐释放到通用大模型中。 在逻辑推理方面,星火大模型也得到了大幅度的提升,比如之前大家会在给AI提问的过程中挖坑,比如问“孔子在2008年奥运会上给大家做汉语培训的故事”,星火大模型可以机智应答孔子不可能出现在08年奥运会上,这其中不仅是逻辑推理,同时也在常识上再次考验了大模型的理解能力。另外对于鸡兔同笼几只脚等数学游戏,星火大模型也是手拿把掐,甚至还可以头头是道的分析与实际应用相结合的数学问题,比如“一只股票昨天涨10%,今天亏了10%,结果持股人亏了还是赚了”,星火大模型可以通过计算得出亏损的正确答案。 在代码能力方面,星火大模型不仅可以生成代码,还可以修改、理解、编译代码,并且多语言能力也让其精通了Python、Java等多种能力。不过刘庆峰表示,星火大模型的代码能力目前还在起步中,预计在未来两三个月会有一个非常大的提升。按照科大讯飞内部的星火大模型演进历程,将会在8月15日左右实现代码能力登上一个新台阶。 最后是在多模态领域,刘庆峰表示,相比ChatGPT最初只能够使用文本对话的形式,目前对在大模型上使用更丰富的形态去输入,用更丰富的方式去表达已经成为关注的重点之一。在今天的所有现场演示当中,刘聪与星火大模型的对话就全部通过语音实现,并且识别的准确率保持在较高的水准。除此之外,刘聪还演示了图片输入,比如输出一张英文菜单,让其翻译为中文。不仅如此,还能根据翻译结果询问每道菜的味道、国家/地区等信息。当然,目前支持图片识别的Pro版本还处于研发内测当中,未来会全部开放。 除了多种方式输入之外,星火大模型在输出上也相交有了进步,比如可以人生朗读,还可以一键生成虚拟数字人,展现了更加丰富的信息交互方式。

触类旁通,颠覆行业应用

刘庆峰在发布会上表示,“认知大模型通过多种类型的数据去学习和训练,最终在通用领域给了大家非常惊喜的表现,但关键的问题在于,它还会像我们人类一样触类旁通,在更多的领域实现智慧的涌现。”而除了以上按照7个维度展现的星火大模型的通用能力之外,科大讯飞也现场宣布将率先在教育、办公、汽车和数字员工四个领域集成人工智能技术,发布相关产品级的产品。 在教育领域刘庆峰介绍,过去的几年时间里已经证明了科大讯飞在教育行业的成功,实现在5万多所中小学、多个国家智慧教育示范区和先进教育试验区应用,今天星火大模型将再次升级语言学习的能力。在刘庆峰看来,语言学习中有两个非常困难的挑战,一个是作文,一个是口语。 以作文为例,作文的批改难度大,花费时间长,同时还需要教会学生改进的方法,一篇作文的批改可能就需要花费10分钟,如果老师再进行更深入的分析和教学,一篇作文至少需要30分钟以上,如果按照40人的班级计算,则仅作文一项任务就需要20个小时以上。 在现场的演示中,利用星火大模型的语言能力,整体批改作文的时间几乎可以忽略。不仅如此,批改的作文会通过分数呈现,当然分数不会是随意评估的,讯飞学习机会像老师一样仔细的批改文章,并提供评分依据,包括第一步发现错别字,第二步修改病句,发现断句错误、标点错误、冗余或用词不当等问题,每一个细节上的小错误都能够呈现出来,第三步则是内容评价,除了指出问题所在,还能够提供启发式的建议,帮助学生提升写作水平。 当然,除了中文作文外,英文作文也不在话下。比如它可以发现单词拼写错误、词汇用法不当、句型结构问题等,最后提出优化的建议。刘庆峰介绍,经过测试,现在星火大模型这个功能绝对是业界从0到1的突破,在批改的准确率以及修订的书面优美度来说已经超过了一般老师的平均水平。在今天上午中国人工智能学会的颁奖典礼上,其OCR识别技术还获得了吴文俊科学创新一等奖。 另外在口语方面,针对口语环境、固定主题等口语训练中的局限性,星火大模型带来了一种类人的自由对话体验,不仅可以自动评测使用者的发音,甚至可以根据主题主动拓展对话,让使用者可以在对话的过程中自由发挥,甚至遇到不会的语句还可以用熟悉的母语进行对话,完全像人类间的聊天方式一样训练口语。当然这些也不再是演示,今天起将在科大讯飞学习机上支持上述功能。 在办公领域刘庆峰介绍,办公领域一直以来面临着三大问题,第一是记不全,传统开会即便是专心听讲也很难把所有的信息掌握住,如果边听边记,可能会出现跟不上演讲者的速度,无法进行更深的思考;第二个问题是找不到关键内容,通常大段的演讲或录音之后,很难去重新寻找到关键的信息,有时候即便重新从头到尾的听也很难查找;第三个问题是安全性,比如使用者担心电子记录是否会将数据传到后台等等。 面对这些,科大讯飞升级了会议纪要、语篇规整能力两大能力,会议纪要功能可以将语音实时形成一份精简的会议纪要,帮助使用者快速回溯会议内容;语篇规整能力则可以去除语音中的口语化词汇,过滤冗余信息,快速抓住要点信息并整理成书面化的文稿。 除此之外,讯飞听见在星火大模型的加持之下,不仅可以录音,还升级了“一键成稿能力”,包括全文摘要、工作代办、工作计划、新闻稿件、宣传文案、多语种翻译等等,还可以根据自己的记录找到对应语音,实现字音同步。除此之外,一键成稿还能根据需求输出不同的文章,比如将录音转为一篇新闻通稿,也可以根据宣传口径、关注方向、中英文需要等,在通稿上得到不同风格、不同语音、不同侧重的新的稿件。 在汽车领域汽车领域是人机交互技术应用的一个重要领域之一,尤其是汽车智能化的趋势愈演愈烈。科大讯飞在汽车座舱内提供了更加自由、更加拟人化的沟通方式,比如随时提供行程信息,随时应答各种问题,创造性对话、订餐购物、风景讲解等等。比如五一长假路途上,可以询问它新的网红路线,询问风景区人流量如何,有没有避开的新路线等等。 目前科大讯飞已为数千个车型提供业界领先的智能语音交互服务,提供多轮、多人、多区域、多模态的语音交互,累计服务用户已经超过4610万,在国内汽车智能语音应用市场保持占有率第一。 在数字员工领域科大讯飞已经推出过一款叫做虚拟人的智能交互机,这个交互机通过虚拟的形象可以以对话的方式实现导游、虚拟客服、导购、导诊以及社区的服务等工作,现在科大讯飞已经有 1000 多个虚拟形象的资产,任何形象基本上都能找到,有300多个专业不同的声音,并且还有30多万用户自定义的音库。通过星火大模型,它变得更加的智能化,更加的人性化,而且自动可以调用各种工具,从而实现一个营业厅24小时不打烊的服务。目前科大讯飞已经率先在10家直营的旗舰店上线虚拟导购的智能交互机。 另外现场还以公司招聘事项为例,演示了数字员工在人力资源方面的价值。在输入指令后,系统即可自动按照事先设计的RPA脚本,操作计算机中的相应软件,实现业务流程的自动化操作并输出结果,还能进行数据分析,比如帮助人力部门度过简历投递高峰期,寻找更加符合意向的员工等等,大幅减轻一线工作人员的压力。 与此同时,刘庆峰在会上宣布,讯飞开放平台将从今日开放星火认知大模型能力接口以及插件市场,面相全行业招募生态合作伙伴。同时,讯飞开放平台宣布将联合首批介入的36各行业、3000余家企业开发者,攻坚大模型行业通用解决方案。另外,即日起,讯飞星火认知大模型也正式对行业合作伙伴和开放平台开发者开放预约。

“国家队”将继续推动大模型进步

刘庆峰在会上介绍,科大讯飞素有中国的国家队之称,2011年科大讯飞便承建了语音及语言信息处理国家工程实验室,“我们提出让机器像人一样能听会说,这一次认知大模型本质上是一次对话式的通用智慧的涌现,语音和语言的核心能力是一个基础条件。” 2014年科大讯飞推出“讯飞超脑计划”,明确提出:让机器像人一样能理解会思考。2022年1月,科大讯飞又在其年度大会上将该计划升级为“讯飞超脑2030计划”,提出让懂知识、善学习、能进化的通用人工智能技术成为每个人未来发展的重要机会,让机器人走进家庭。 “在国家平台和讯飞超脑计划的支撑下,过去几年我们在认知智能领域取得了一系列全球领先的成果。”2017年,科大讯飞承建认知智能国家重点实验室,也就是从这一年起,科大讯飞不仅让机器在全球首次通过了国家职业医师资格考试、超过了96.3%参加考试的医生,并且在SQuAD机器阅读理解中全球首次超过人类平均水平,刚刚过去的2022年在OpenBookQA 科学知识推理中,单模型也超过人类平均水平。“ 正是因为有这样的系列的成果,所以当去年11月30日ChatGPT带给大家惊喜之后,科大讯飞能够通过关键的技术和研发体系,以及成建制的团队,重现OpenAI的智慧。在2022年12月15日启动认知大模型专项攻关后,科大讯飞到今年5月6日便正式将星火大模型推到了外界的面前。 刘庆峰表示,今天的大模型才刚刚开始,还在快速的成长和迭代的过程中,我们不是要在单个例子上证明谁更强,这没有意义。因此我们向OpenAI致敬和学习,同时也要快速追赶并超越。而这就需要一套科学的评测体系。 科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,并与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨形成了覆盖7大类481个细分任务类型。在科学的评测体系中,推动大模型的发展。

最后,借用刘庆峰的话作为结尾,“我相信人工智能一定会以解决人类刚需而更深刻地载入史册。我们期待着跟所有的合作伙伴一道,携手努力,让这样一个人工智能建设美好世界的梦想成为燎原之势。”

5月11日

云游泰科电子实验室和工程中心

参考资料: 1.https://xinghuo.xfyun.cn/?ch=bdtg-xh-cy01&bd_vid=10620476027592690612 2.《携手生态,星火燎原!》,讯飞开放平台

标签:

推荐文章