当前位置:首页 > 科技数码

哈萨比斯 阿尔法狗之父揭秘最强“狗”如何炼成:3天走完人类千年棋史

10月18日伦敦当地时间18: 00(北京时间19日01: 00),谷歌的DeepMind团队宣布了进化后最强版的AlphaGo,代号AlphaGo Zero。

新版AlphaGo有多厉害?击败李世石的AlphaGo用了3000万游戏作为训练数据,AlphaGo Zero用了490万游戏数据。经过三天的训练,AlphaGo Zero以100: 0击败了版AlphaGo对阵李世石。

DeepMind联合创始人兼首席执行官、AlphaGo之父德米斯?戴密斯·哈萨比斯和阿尔法狼队队长大卫?戴夫·银等人也在官方博客上发表了一篇文章,详细解释了阿尔法狗的最强版本是如何制作的,以及它与上一代的不同之处。

哈萨比斯与上一代AlphaGo不同,alpha go是从学习大量人类棋谱开始的。AlphaGo Zero从“婴儿般的白纸”开始,经过三天的自我玩法,完成了人类围棋的千年历史,摸索出了很多横生空的招数。

Hassabis等专题文章:《AlphaGo Zero:从零开始》

席尔瓦在乌镇人机峰会上发言。从语音识别和图像分类到基因和药物研究,人工智能发展迅速。这些专家系统中的许多是通过借用大量的人类经验和数据开发的。

然而,在一些具体问题上,人类的知识要么太昂贵,要么不可靠,要么不可用。因此,人工智能研究的一个长期目标是跳过这一步,在没有人工输入的情况下,在最具挑战性的领域创造出可以达到超人水平的算法。我们发表在《自然》杂志上的最新论文显示了实现这一目标的关键一步。

本文介绍了AlphaGo的最新进化版本,第一个击败人类围棋冠军的计算机程序:AlphaGo Zero。AlphaGo Zero更强大,可以争夺史上最强围棋手。

最初,前几代AlphaGo使用数千名业余和专业棋手来训练和学习如何玩围棋。AlphaGo Zero跳过这一步,自学下棋,完全从混沌开始。就这样,迅速超越了人类的水平,连续100次战胜了之前击败过人类冠军李世石的前一代AlphaGo。

AlphaGo Zero之所以能成为自己的老师,就是用了一个名字叫做

强化学习的新模式。系统从一个对围棋一无所知的神经网络开始,结合这个神经网络和强大的搜索算法,自己下棋。游戏过程中,神经网络不断调整升级,预测每一步和最终的WINNER。

升级后的神经网络和搜索网络合并成更强的新版本AlphaGo Zero等等。每一轮过后,系统的性能都有一点提升,自我游戏的质量也有一点提升。神经网络越来越准,AlphaGo Zero的版本越来越强。

这项技术比AlphaGo之前的所有版本都更强大。这是因为它不再受人类知识的限制,而是可以直接从婴儿般的白纸状态学习到——AlphaGo本身,世界上最强大的玩家。

AlphaGo Zero与上一代产品有几个明显的区别:

首先,AlphaGo Zero只使用棋盘上的黑白字符作为输入,而上一代则包含了少量人工设计的特征输入。

其次,AlphaGo Zero只使用单一的神经网络。在之前的版本中,AlphaGo使用“策略网络”来选择下一步棋,使用“价值网络”来预测每一步棋之后的赢家。在新版本中,这两个神经网络被结合成一个,这样它可以得到更有效的训练和评估。

再次,AlphaGo Zero没有使用快速随机行走的方法。在以前的版本中,AlphaGo使用快速行走的方法从当前的情况来预测哪个玩家会赢得游戏。相反,新版本依靠其高质量的神经网络来评估下棋的情况。

所有这些差异都提高了系统的性能,使其更加通用。然而,正是算法的改变使得系统更加强大和高效。

仅仅三天的自玩,AlphaGo Zero就以100: 0击败了此前击败世界冠军李世石的AlphaGo版。经过40天的自玩,AlphaGo Zero变得更加强大,超越了打败今天第一人柯洁的AlphaGo“大师”版。

通过百万次的自我游戏,AlphaGo从零开始掌握了围棋,短短几天内就积累了人类几千年才有的知识。AlphaGo Zero也发现了新的知识,开发了非常规策略和新花样,与它在对抗李世石和柯洁时创造的那些很和谐,但都比别人强。

这些创造性的时刻让我们相信,人工智能将成为人类智能的增强器,帮助我们解决人类面临的一些严峻挑战。

虽然刚刚发展起来,但是AlphaGo Zero已经朝着上述目标迈出了至关重要的一步。如果能把类似的技术应用到其他结构问题上,比如蛋白质折叠,降低能耗,寻找新材料,就能创造出对社会有益的突破。

1.《哈萨比斯 阿尔法狗之父揭秘最强“狗”如何炼成:3天走完人类千年棋史》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《哈萨比斯 阿尔法狗之父揭秘最强“狗”如何炼成:3天走完人类千年棋史》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/641849.html

上一篇

网上交朋友 怎么在网上交朋友,这里有基本款10种

下一篇

入党宣誓仪式程序 【微党课】举行入党宣誓仪式的主要程序是什么?

户部光绪元宝二十文铜币价格 专家鉴定:户部“光绪元宝”常见铜币有八种版本,它们的价值是多少?

  • 户部光绪元宝二十文铜币价格 专家鉴定:户部“光绪元宝”常见铜币有八种版本,它们的价值是多少?
  • 户部光绪元宝二十文铜币价格 专家鉴定:户部“光绪元宝”常见铜币有八种版本,它们的价值是多少?
  • 户部光绪元宝二十文铜币价格 专家鉴定:户部“光绪元宝”常见铜币有八种版本,它们的价值是多少?
虎鲸受伤了向人类求助 法虎鲸学会用喷水孔说“你好” 饲养员激动坏了

虎鲸受伤了向人类求助 法虎鲸学会用喷水孔说“你好” 饲养员激动坏了

一只在法国水族馆饲养的虎鲸可以发出“你好”、“再见”等简单的英语单词,这是已知的第一只模仿人类语言的虎鲸。这只名为“维姬”的雌性虎鲸生活在法国南部安托万的海洋世界。通过模仿饲养员学习“说话”,她可...

王沛然微博 专访英学者罗思义:中国的经济体制创造了人类历史上最快速的增长

王沛然微博 专访英学者罗思义:中国的经济体制创造了人类历史上最快速的增长

新华网北京4月10日电(记者胡良宇)“中国的经济体制是一个前所未有的体制,是中国成功的经济发展实践的结晶,创造了人类历史上最快的经济增长”,中国人民大学崇阳金融研究所高级研究员、英国伦敦经济与商业...

陈欧体各种版本 湖南城市“代言体”微博热传 株洲版霸气十足

陈欧体各种版本 湖南城市“代言体”微博热传 株洲版霸气十足

湖南高铁警察第一人称旁白出现各种第一人称叙述者在线热传:【高铁警察,你自己说吧】你只看到了我头上的国徽,没注意我冻僵的胳膊。你有你的追求,我有我的坚持。!我是高速警察,我为自己说话。亲爱的,你呢?...

我的世界bug刷无限钻石 我的世界:新版本奇葩BUG合集,大佬利用系统规则无限刷钻石!

  • 我的世界bug刷无限钻石 我的世界:新版本奇葩BUG合集,大佬利用系统规则无限刷钻石!
  • 我的世界bug刷无限钻石 我的世界:新版本奇葩BUG合集,大佬利用系统规则无限刷钻石!
  • 我的世界bug刷无限钻石 我的世界:新版本奇葩BUG合集,大佬利用系统规则无限刷钻石!
周元俊 长沙县江背伢子成湖南省最年轻职业围棋手

周元俊 长沙县江背伢子成湖南省最年轻职业围棋手

只要周有时间,就会坐在棋盘边上下棋。四处旅行长沙县站,红网,8月20日——还记得你12岁那年暑假在做什么吗?埋头读书?网游?还是什么都不做?这一年,蒋北亚子周获得了一个具有特殊意义的暑假。在上个月...

杭州捐精 浙江人类精子库招募捐精志愿者

杭州捐精 浙江人类精子库招募捐精志愿者

受卫生部委托,浙江省计划生育科学技术研究所建立了人类精子库,旨在使不育夫妇通过志愿者提供合格的精子进行人工授精,从而生育孩子,享受家庭幸福。我们呼吁健康的男人加入“让人们相爱”的团队。你爱的行动可...

周金华 周金华个展开幕,高空俯视,呈现独特“人类风景画”

  • 周金华 周金华个展开幕,高空俯视,呈现独特“人类风景画”
  • 周金华 周金华个展开幕,高空俯视,呈现独特“人类风景画”
  • 周金华 周金华个展开幕,高空俯视,呈现独特“人类风景画”