创新创业知识辩论,自主创业优于岗位创业辩论 创新创业知识辩论,自主创业优于岗位创业辩论
创始人
2025-06-04 14:15:36
0

     

  

  知止(微信官方账号:zhidxcom)   

  

  编译| 程茜   

  

  编辑 | 李水青   

  

  周四,OpenAI发布了基于AI模型GPT-3的WebGPT。该模型可以在线组织问题的答案,并添加引用源,以更准确地回答开放式问题。   

  

  回答问题时,WebGPT可以通过浏览器进行搜索,在不同的链接中找到相关的答案,并在组织答案的最后,标记参考文献的来源,这样就可以追溯答案来源的准确性。   

  

  2020年6月,OpenAI发布了当时历史上最强的AI模型GPT-3,耗资数千万,训练了2000亿字。WebGPT模型是对GPT-3进行微调的结果。   

  

  OpenAI表示:“我们非常乐意开发更通用、更智能的AI模型,但挑战依然存在。比如在处理不熟悉的开放性问题时,AI模型的答案不是很准确。”   

  

  # #一、长江跟尼罗河谁更长?AI帮你上网搜答案   

  

  像GPT-3这样的语言模型可以完全应对不同的任务,但是对于那些在现实世界中没有准确答案的任务,这种模型往往会产生一些令人困惑的信息。   

  

  为了解决这个问题,研究人员教AI模型使用网页浏览器来百度问题。该模型包含诸如“搜索……”、“在页面中查找:……”或“引用:……”等命令。在开放式问题的情况下,WebGPT可以通过模仿人类搜索的行为来自动搜索答案。   

  

  这样,WebGPT模型就学会了从网页上收集段落,然后用这些段落来写答案。   

  

  当被问到:“尼罗河和长江哪个更长?”   

  

  WebGPT:“尼罗河比长江长。尼罗河在维多利亚湖和地中海之间绵延6650公里(4130英里)。从青海唐古拉山的源头到东海有6300公里(3915英里)长。”   

  

     

  

  WebGPT回答“尼罗河和长江哪个更长?”问题是   

  

  当被问及:“为什么2021年3月苏伊士运河被封锁?”   

  

  WebGPT:“苏伊士运河在2021年3月被封锁,因为一艘名为‘Forever’的集装箱船在那里搁浅。这艘船曾经装载了20000箱货物,在有两条水道的运河中被强风吹进运河,所以其他船只无法绕过给定的水道。苏伊士运河管理局雇了一艘拖船将这条曾经废弃的运河拖出运河。运河堵塞对欧洲、亚洲和中东之间的贸易产生了重大的负面影响。这引发了集装箱现货运价的新一轮飙升,最终从历史高点开始回落。”   

  

     

  

  当被问到:《哈利波特》系列和《指环王》系列哪个词多?   

  

  WebGPT:“《指环王》三部曲的字数比《哈利波特》系列还多。包括《霍比特人》,整个《指环王》系列包含576459字。相比之下,《哈利波特》系列包含1084170个单词。”   

  

     

  

  研究小组对GPT-3的微调与GPT-3的初始训练方法相同。首先,他们训练模型模仿人们回答问题的方式,这使得它能够使用基于浏览器检索的内容来回答问题。   

  

  然后,他们训练激励模型来预测人类偏好,并使用强化学习或拒绝抽样(随机抽样)来优化它们,从而提高模型答案的有用性和准确性。   

  

  # #二、超一半回答优于人类,但可能引用不可信来源   

  

  ELI5是一个调试机器学习模型的Python库,研究人员在这个库中选择了“像五岁一样解释”。   

  

  五)“专栏,发现经过系统训练的WebGPT已经可以回答问题了。   

  

     

  

  ELI5中的评估结果   

  

  研究人员表示,他们训练了三种不同的AI模型,对应三种不同的推断。   

  

  要计算的时间(推断时间)。结果表明,在56%的情况下,性能最好的模型产生的答案比人类主持人撰写的答案更受欢迎,答案的事实准确性相似。   

  

  研究人员表示,他们将在未来使用人工反馈来改进模型的答案,但是   

能会最终超越人类的答案。

  

对于模型的训练分布(training

  

distribution)来说,这三个模型中,最好的模型的答案与人类演示者所写的答案几乎一样准确。然而,研究人员称,实现所有模型都能达到稳健是一个挑战。

  

为了探讨这个问题,研究人员在TruthfulQA上评估了该模型,TruthfulQA是一个数据集,包含了很多容易产生误解的问题,可以测试模型是否会产生常见的误解。在这个过程中,问题的答案会根据真实性和信息量进行评分,例如,“我没有评论”这个答案就被认为是真实的但不提供信息。

  

  

TruthfulQA中的评估结果

  

WebGPT模型在TruthfulQA上的表现优于GPT-3,并表现出更有利的缩放特性,不过模型落后于人类答案的部分原因是它们有时会引用不可靠的来源。研究人员希望使用对抗性训练等技术来减少这些失败的频率。

  

## 三、公开信息佐证,AI也可以加引用

  

为了增加人类反馈对提高事实准确性的作用,研究人员必须能够评估模型产生答案的事实准确性。对于研究人员来说,这极具挑战性,因为有些答案可能是主观的或含糊不清的。

  

出于这个原因,研究人员为模型增加了“引用来源”功能。这使人们可以通过检查答案,是否得到了可靠的信息支持,并评估事实的准确性。除了使任务更易于管理外,这项功能还减少了答案歧义。

  

然而,这种方法也提出了许多问题。来源可靠的判定标准?哪些声明足够确定不需要支持?在评估事实准确性和其他标准之间应该进行什么权衡?所有这些都是艰难的判断。

  

研究人员认为,WebGPT仍然存在一些基本错误,很多细微差别没有被发现。“但我们预计,随着人工智能系统的改进,这类决策将变得更加重要,需要跨学科研究来制定既实用又符合认知的标准,我们还预计透明度等进一步的考虑很重要。”

  

WebGPT通过引用来源其实不足以评估事实准确性。研究人员提到,一个足够强大的模型会精心挑选它认为可以令人信服的来源,即使这个来源有可能没有准确的证据。研究人员提出了一种新的解决办法就是:增加辩论过程来获得答案。

  

WebGPT模型通常比GPT-3更“真实”,它生成错误陈述的频率也更低,但这个模型仍然存在很多风险。OpenAI说:“带有引用的答案通常被认为具有权威性,这可能会掩盖我们的模型仍然存在基本错误的事实。”WebGPT还倾向于强化用户的现有信念。

  

除了这些部署风险之外,如果允许WebGPT向各种浏览器发送查询并跟踪Web上已存在的链接,这也可能会增加新的风险。

  

## 结语:GPT-3大模型取得新进展

  

曾经可以写小说、敲代码、编剧本的GPT-3模型在研究人员手中,又学会了自动检索。但根据GPT-3的训练经验来看,这些风险可能还不足以产生危机。然而,随着模型的智能化逐渐深入,在未来是否会产生更大的风险?

  

人类反馈和Web浏览器等工具为实现稳健、真实的通用AI模型提供了一条有希望的途径。OpenAI称,AI模型在充满挑战或不熟悉的情况下不断挣扎,但在这个方向上他们仍然取得了重大进展。

  

来源:OpenAI

  

相关内容

热门资讯

人创业失败的例子,创业典型事例... 他13岁失去父亲,15岁失去母亲。他在哥哥和嫂子的支持下完成了学业。生活的艰辛让他更加失意,更加勇敢...
互联网 创新创业项目点子,创新... 一、创业计划背景:近年来,由于劳动力、资本、原材料、土地、资源和环境成本的上升,人民币普遍处于升值通...
大学生创新创业发展规划,创业发... 未来创业和规划大学生创业是以大学生和毕业生这一特殊群体为主体的创业过程。随着最近中国的转型和社会就业...
内蒙古大学创业学院全部搬走,内... 根据中国校友会网公布的2021中国大学排名,内蒙古自治区!有2所私立大学中国大学校友会2021年度排...
比如泉台招旧部,创业艰难百战多... 今天断头是什么感觉?创业难,苦。去泉台招老员工,提个10万的标准去阎罗。南方国家开始吸烟已经十年了。...
大学创业园申请办公室(深圳创业... 6月11日,深圳大学举办了“校园开放日”和2017年本科招生咨询会,向公众展示了迷人的校园和教学实力...
男人创业情感经历,80创业经历... 从今天开始,我将连续10天与大家分享我的创业历程和情感经历!希望对大家有所帮助,欢迎大家评论!今天路...
微信以前叫什么,创业时代的魔晶... 由黄轩、杨颖、周一围、宋轶等人主演的都市创业电视剧《创业时代》继续播出,郭新年的创业项目是基于微信的...
十万左右创业能干啥(十万块创业... #我手里有10万,什么生意好#如果你不知道做什么生意给你推荐一本书"低风险创业。里面讲到优秀的企业家...
小伙子的创造生活经历(青年农村... “一路走来,我就想干成点事儿。”韩保文实在地说,“创业十年,我一直坚信,只要方向没错,坚持就是胜利。...
中小企业如何触网,中小企业创业... 改变旧观念,互联网营销是机会每个人都需要了解互联网营销。一些公司缺乏互联网营销的概念。很多公司没有明...
有什么好项目适合个人做的-,创... 不想工作,手里拿着一万块钱怎么挣钱?今天我介绍四个靠谱的小项目。月入过万大家应该没问题。第一个摊位卖...
教育类的创业(创业项目教育类)... 随着生活水平的提高,今天的父母对孩子的要求越来越高,对全脑发育的培养要求也越来越高。在日益火爆的全脑...
创业者如何思考和行动,成功的创... 哈佛商学院的调查显示,初创企业的失败率远高于我们看到的数据。即使是风险投资支持的初创企业,失败率也高...
小本创业商机网(福建创业网) ... 创业成了全国话题。看到别人成功创业,人们的创业热情也在不断高涨。但创业者新手一定要谨慎,不要盲目跟风...
适合宝妈创业项目,家庭主妇创业... 女性的特殊性在职场的道路上更加艰难。因为他们必须经历怀孕阶段。有很多女性成为母亲后成为全职宝妈。全职...
学校为何强制参加syb,syb... 日前,省人力资源和社会保障厅联合省财政厅下发 《海南省失业人员职业培训和职业介绍补贴办法》 (以下简...
激励自己的话奋斗的话(创业正能... 第一,没有人的运气是凭空而来的。只有你足够努力,你才会足够幸运。这个世界不会辜负每一份努力和坚持,时...
东方创业(600278)股吧,... 每期AI简讯,东方创业(SH 600278,收盘价:8.9元)1月28日晚发布业绩预测。预计202...