当前位置: 首页>行业 >

国产ChatGPT「套壳」的秘密,现在被找到了 全球报资讯

来源: 创业邦 | 时间: 2023-05-28 15:05:30 |

比算力更急缺的是高质量数据

编者按:本文来自微信公众号量子位(ID:QbitAI),作者:衡宇,创业邦经授权发布。


(相关资料图)

“科大讯飞套壳ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商汤大模型实则抄袭!”……

外界对国产大模型产生质疑已经不是一次两次了。

业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。

其余办法中,用现有大模型辅助生成训练数据容易数据清洗不到位,重复利用token会导致过拟合,仅训练稀疏大模型也不是长久之计。

业内渐渐形成共识:

通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。

时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。

高质量数据集虽有但少

大模型的新突破十分依赖高质量、丰富的数据集。

根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则(scaling law)可以看到,独立增加训练数据量,是可以让预训练模型效果变更好的。

这不是OpenAI的一家之言。

DeepMind也在Chinchilla模型论文中指出,之前的大模型多是训练不足的,还提出最优训练公式,已成为业界公认的标准。

△主流大模型,Chinchilla参数最少,但训练最充分

不过,用来训练的主流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据只占据4.8%。

中文数据集是什么情况?

公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和英文数据集相比可谓九牛一毛。

并且,其中部分已经老旧,可能都不知道最新的NLP研究概念(新概念相关研究只以英文形式出现在arXiv上)。

中文高质量数据集虽有但少,使用起来比较麻烦,这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰分享过,千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。

解决中文世界缺乏高质量数据集迫在眉睫。

行之有效的解决方法之一,是直接用英文数据集训大模型。

在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5训练数据都是英文,再刨去其他语种,用来训练的中文数据量少到可以用“千分之n”来计算。

国内top3高校某大模型相关团队在读博士透露,如果采用这种方法,不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。

然而这样喂养出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容,往往处理不佳,出现翻译错误或潜在文化的偏差。

还有个解决办法就是采集、清洗和标注中文语料,做新的中文高质量数据集,供给给大模型们。

开源数据集众人拾柴

察觉现况后,国内不少大模型团队决定走第二条路,着手利用私有数据库做数据集。

百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。

积累的私有数据不一,就可能在特定场景和领域建立核心优势壁垒,将这些数据严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。

而那些私有数据优势不那么明显大模型团队,开始全网爬数据(可以预见,爬虫数据量会非常大)。

华为为了打造盘古大模型,从互联网爬取了80TB文本,最后清洗为1TB的中文数据集;浪潮源1.0训练采用的中文数据集达5000GB(相比GPT3模型训练数据集为570GB);最近发布的天河天元大模型,也是天津超算中心搜集整理全域网页数据,同时纳入各种开源训练数据和专业领域数据集等的成果。

与此同时,近2个月来,中文数据集出现众人拾柴火焰高的现象——

许多团队陆续发布开源中文数据集,弥补当前中文开源数据集的不足或失衡。

其中部分整理如下:

CodeGPT:由GPT和GPT生成的与代码相关的对话数据集;背后机构为复旦大学。

CBook-150k:中文语料图书集合,包含15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域;背后机构为复旦大学。

RefGPT:为了避免人工标注的昂贵成本,提出一种自动生成事实型对话的方法,并公开我们的部分数据,包含5万条中文多轮对话;背后是来自上海交大、香港理工大学等机构的NLP从业者。

COIG:全称“中国通用开放指令数据集”,是更大、更多样化的指令调优语料库,并由人工验证确保了它的质量;背后的联合机构包括北京人工智能研究院、谢菲尔德大学、密歇根大学、达特茅斯学院、浙江大学、北京航空航天大学、卡内基梅隆大学。

Awesome Chinese Legal Resources:中国法律数据资源,由上海交大收集和整理。

Huatuo:通过医学知识图谱和GPT3.5 API构建的中文医学指令数据集,在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果;项目开源方是哈工大。

Baize:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队把使用此法收集的数据集开源。

当更多的中文数据集被开源到聚光灯下,行业的态度是欢迎与欣喜。如智谱AI创始人兼CEO张鹏表达出的态度:

中文高质量数据只是被藏在深闺而已,现在大家都意识到这个问题了,自然也会有相应的解决方案,比如数据开源。总之是在向好的方向发展,不是吗?

值得注意的是,除了预训练数据,目前阶段人类反馈数据同样不可或缺。

现成的例子摆在眼前:

与GPT-3相比,ChatGPT叠加的重要buff就是利用RLHF(人类反馈强化学习),生成用于fine-tuing的高质量标记数据,使得大模型向与人类意图对齐的方向发展。

提供人类反馈最直接的办法,就是告诉AI助手“你的回答不对”,或者直接在AI助手生成的回复旁边点赞或踩一踩。

先用起来就能先收集一波用户反馈,让雪球滚起来,这就是为什么大家都抢着发布大模型的原因之一。

现在,国内的类ChatGPT产品,从百度文心一言、复旦MOSS到智谱ChatGLM,都提供了进行反馈的选项。

但由于在大部分体验用户眼中,这些大模型产品最主要的还是“玩具”属性。

当遇到错误或不满意的回答,会选择直接关掉对话界面,并不利于背后大模型对人类反馈的搜集。

So~

今后遇到AI生成回答有错误或遗漏时,请不要吝惜一次点击,高举你手中的“”或“”,让大模型能收集更多的人类反馈。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

关键词:

 

热文推荐

国产ChatGPT「套壳」的秘密,现在被找到了 全球报资讯

国产ChatGPT「套壳」的秘密,现在被找到了,比算力更急缺的是高质量数据

2023-05-28

魏征为太子洗马(太子洗马)|天天即时

来为大家解答以下的问题,征为太子洗马,太子洗马这个很多人还不知道,现在让我们一起来看看吧!1、“洗马”

2023-05-28

城南街道第五届“社区邻里节”深度打造“城南相伴”

5月26日,城南人迎来了共同的节日——“城南相伴邻里向善”第五届“社区邻里节”。上午9点,活动在大运河源

2023-05-28

每日视点!著名经济学家朱少平:建议让60岁退休人员再就业,去伺候80岁老人

2023年3月份经济学家朱少平最近提出了一个大胆的想法:让60~70岁的退休人员去伺候75~90岁的老人。这个计划

2023-05-28

企业微信收集表怎样自动每天发出(企业微信收费标准)

1、因为企业微信群和朋友圈功能的开放,很多公司都想开通企业微信。2、公司在使用企业微信之前,咨询最多的

2023-05-28

争做新时代好少年 西滨举办庆“六一”汇报演出

晋江新闻网5月28日讯昨日上午,晋江西滨镇文体活动中心人头攒动,歌舞飞扬。一段电子琴独奏《我和你》正式

2023-05-28

南方大部地区闷热升级 体感温度可达40℃

今天(5月28日),河南及江淮地区仍有较强降雨,局地有暴雨或大暴雨,并伴有雷暴大风等强对流天气。南方大

2023-05-28

白皮书:北京互联网3.0产业发展仍面临挑战,下一步加快技术攻关与共性平台搭建

App5月27日消息,北京市科学技术委员会、中关村科技园区管理委员会对外发布了《北京市互联网3 0创新发展白

2023-05-28

【世界播资讯】“六一”国际儿童节特别策划军娃的名字

此时,距离妻子的预产期只剩下3个月。

2023-05-28

当前热点-火火视频极速版为什么不能提现(火火视频极速版提现方法)

音频解说1、《火火视频极速版》提现方法2、火火视频极速版中需要完成签到、邀请好友等任务才能获取金币奖励

2023-05-28

天天亮点!2022进口牛排十大品牌排行榜_进口牛排哪个牌子好

1、西捷2、若简3、ANGESHI4、华牧鲜5、得利斯6、可达怡 Kotanyi7、神泽8、领食鲜生9、茶牛10、B

2023-05-28

日间行车灯是什么意思?什么时候打开的(日间行车灯是什么意思?什么时候打开?) 全球观天下

日间行车灯是指使车辆在白天行驶时更容易被识别的灯具,它装在车身前部。当汽车发动机一启动,日间行车灯则

2023-05-28

快手怎么开通医疗器械店铺?护理护具类轮椅拐杖等怎么报白开通?-今日热文

快手怎么开通医疗器械店铺?护理护具类轮椅拐杖等怎么报白开通?公众号:抖锋小李一、开通流程1 注册账号2

2023-05-27

观速讯丨违规拒不改正,福州一砂场违法设施被拆除

日前,随着钢架切割及倒地的声声巨响,福州高新区内一家加工机制砂场内的违法设施被顺利拆除。事情要追溯至

2023-05-27

天天看点:伟大的早田希娜!她是值得送上掌声的对手,水谷隼:打出世纪之战

德班世乒赛女单八进四,日本00后一姐早田希娜,挽救9个赛点拿下王艺迪,赢得这场七局大战,简直是令人紧张

2023-05-27

世界实时:受益于人工智能大发展 美股科技主题QDII霸榜

【受益于人工智能大发展美股科技主题QDII霸榜】据中国基金报,今年以来,美股科技板块持续上涨,多只美股科

2023-05-27

上海高校辅导员年度人物提供创作灵感,音乐话剧《辅导员》首演 每日时讯

5月26日至28日,原创音乐话剧《辅导员》在上戏实验剧场首演。该剧是全国首部聚焦高校辅导员队伍精神风貌的

2023-05-27

和尚心经念诵_小和尚念经 天天新动态

1、小和尚念经 ——有口无心歪嘴和尚念经——说不出一句正经话秃子不要说和尚——胶了帽子一个样庙里的和

2023-05-27

小麦待收+鲜果上市 各地夏收夏种夏管火热进行中

眼下,我国从南到北,夏收、夏种、夏管工作正在火热进行。山东菏泽:小麦长势喜人 风吹麦浪待丰收“小

2023-05-27

【聚焦2023数博会】融合创新 数链世界——走进2023数博会国际综合馆

  5月26日,2023中国国际大数据产业博览会(以下简称数博会)开幕,作为今年数博会专业展之一,国际综合

2023-05-27

资讯

北京推出14条秋游文化线路

金秋时节,北京市文化和旅游局以赏银杏品文化为主题,推出14条“叶落的季节——漫步北京赏银杏品文化主题线路”,邀市民和游客以步行、骑行

2021-10-27     
基因编辑发力 培育高质量人源化供体猪

此次人体试验,仅仅验证了基因编辑猪克服异种器官移植的超急性排斥反应,还需解决延迟性排斥反应、消耗性血栓等问题。但通过这次试验,能更

2021-10-27     
中国经济高质量发展步伐稳健 长期向好基本面未变

在全球疫情走势和经济走势趋于复杂的背景下,中国经济巨轮将驶向何方,举世关注。2020年10月26日至29日,党的十九届五中全会在京举行,明确

2021-10-27     
南美解放者杯决赛允许近4.5万观众入场

南美洲足联主席多明格斯25日与今年解放者杯决赛对阵的两支俱乐部负责人会晤,宣布决赛现场观众人数增加到球场容量的75%,即近4 5万人。今年

2021-10-27     
22年从警生涯 面对荣誉他说不要给我报功

9月24日,时任安徽省安庆市公安局迎江分局刑警大队大要案中队中队长周磊因在工作中激烈搏斗引发心源性猝死,倒在了工作岗位上,经医院抢救

2021-10-27     
走近冬奥|五棵松体育中心场馆“黑科技”全面上岗 助力冬

“相约北京”冰球国内测试活动将于2021年11月7日至10日在五棵松体育中心场馆举行,在疫情防控方面,场馆引入了诸多“黑科技”,为防疫安全

2021-10-27