今天的人工智能有够膨胀吗?
其实这话看怎么说,对比历史上某些时刻的人工智能计划,今天的AI热其实只能算小巫见大巫。
今天我们就来介绍一个绝对够宏大,甚至有点疯狂的人工智能计划。它的名字叫做Cyc。
跟很多人工智能与计算机科学领域的朋友聊天,总会时不时提到Cyc项目。因为这个项目曾经在美国盛极一时,代表了当时典型的人工智能技术与思考,更神奇的是这个1984年启动的项目,直到今天还在继续,并且始终处于建设中。
是不是好像有点厉害?
这个打算囊括人类所有知识体系的计划,正好是八十年代初,上一次人工智能热潮最好的缩影。
疯狂年代:打包人类所有知识的超级AI计划
我们知道,今天的人工智能技术中,有一个分类叫做“知识图谱”。其基本概念可以理解为按照知识之间的关联性,建立起复杂多元的连接网络,从而让智能体自我进行推理等信息联动。
这项技术今天已经被广泛应用到搜索引擎、智能广告投放,以及多个自然语言处理领域。但“知识图谱”在上世纪八十年代还没有确定如今的名字,那时候它的名字简朴的多,叫做“逻辑推理”。
逻辑推理作为一种人工智能技术,在四十年代就已经被提出了,这种让智能体效仿人类的推理能力,进行运算和知识处理的方式,曾经一度占领人工智能研究的主流。在七十年代末,一种关于逻辑技术的新说法开始流行。这种观点认为人的能力来自于对知识的运用,如果让智能体获得应用人类知识的机会,那么智能体就可以代替人类解决问题。
其实这个思路跟今天的机器训练有点像,但区别在于当时对大数据的理解与今天完全不一样。在缺乏云计算等基础条件的情况下,当时的研究人员想出了另一个“剑走偏锋”的主意:要不咱们干脆把所有人类的知识都手动录入吧?
这个听起来有点“愚公移山”精神的计划居然真的被付诸实践了。1984年,美国微电子与计算机技术公司开启了这场预计手动上传并编码数百万条技术的宏伟项目,该项目被称为Cyc。
Cyc是对encyclopedia,即“百科全书”一词的简写。项目的研究人员认为,人类的百科全书虽然叫“全书”,但记载的恰恰是那些尝试之外的“冷知识”(因为常识一般人早就知道了),Cyc项目希望记录的是那些给机器准备的,货真价实的常识。
于是一场漫长的旅行开始了。从1984年启动,到1994年Cyc独立成为公司,再到之后公布开源平台等等。33年过去了,Cyc虽然不温不火,也早已不是人工智能领域的主角,但他一直存在着……甚至手动输入数据这件事也在坚持。
根据维基百科,Cyc系统已经包含了320万条人类定义的断言,涉及30万个概念,并且建造还在持续。
这么夸张而漫长的项目能够启动,跟1984年的美国人工智能热是分不开的。当时前中情局副局长博比·英曼上将等人正在主持人工智能和电子信息领域的“军备竞赛”。假想敌就是日本提出的“第五代计算机”项目。加上当时各种各样的本体库、知识库建设是社会热点,这个超越人类想象的宏大计划才在多种条件支持下成功上马。
更大的背景,是1984年里根正式批准启动了“星球大战”计划。在各种各样科幻到炸裂的项目面前,Cyc可能还显得有点靠谱呢……
Cyc的价值何在?
比起来关于八十年代的八卦,我们更加在意的可能是这个打包人类所有知识的人工智能计划到底是怎么运作的?有是否能有些用处?
其实Cyc真不是一个特别复杂的系统,它主要由两个部分构成,一是作为数据载体的多语境知识库,二是系统本身的推理引擎。
它的运作基础也很简单,就是逻辑推理。首先它会载入各种各样的知识和断言。比如“树是一种植物”、“植物都是会死的”,根据这些断言它就能自己推理出“树是会死的”这个结论。
一句话解释一下,Cyc系统处理的是人类知识系统中的术语、关系和规则。
虽然上面举的例子有点简单,但这套系统的逻辑基本已经被证明是可行的(要不然也不会建了30多年)。人工智能知识论的代表人物,1994年图灵奖获得者爱德华·费根鲍姆就曾经认为:“Cyc是世界上最大的知识库,也是技术论的最佳代表”。这在当时的环境条件下是有一定道理的。
说到应用层面,Cyc系统作为一套通用型本体库,可以帮助垂直领域的本体库快速建立。比如医药、金融、企业级服务领域都需要知识结构体系来解决大量问题。
Cyc本身也被预估为一套专家体系,可以解决通用世界中的复杂问题。比如说Cyc衍生过一套恐怖主义知识库,就是通过载入的信息,推理出包括成员、领袖、赞助者、设施、地点、经费等等类目的恐怖组织数据网络。确实提供了一些难以替代的价值。
其次,Cyc也可以开源其知识库体系,帮助其他智能体训练和成长。
但以上所有解决的基本都是小问题。Cyc真正能被国家系统看重的愿景,是通过知识的不断输入,从量变引发质变。在某个奇点到来之后,Cyc解决问题的能力将呈现几何级增长,达到了解人类一切知识的“神一样”的存在。
但这个目标同时也是Cyc最大的问题——到底要等到什么时候呢??
饱受诟病的史诗级计划
Cyc项目有很多美誉,但绝不会多于对他的诟病。所以这个史诗级的项目,又被称为人工智能历史上最受争议的项目。
虽然还隔几年有条新闻爆出来,并且其公司也开始了企业服务等收费项目,但事实上曾经叱咤一时的Cyc已经被世界遗忘了。
归纳一下,这个项目在深度学习统治世界的今天已经有四大难以弥补的问题:
1、缺乏效率:想想2017年,还在坚持手动添加所有知识到智能系统里是多么了不起的一件事!但无论说它是坚持自我,还是复古主义审美,这件事的效率都太低了。有人估算过Cyc真正达到预期的知识存储量可能还要等300多年…….
2、缺乏精准性:Cyc这套理论其实也有很多核心漏洞。比如对很多知识的解释难以令人满意,尤其在形容具体的实物很难区分外观、材质、使用功能的差别;再比如由于效率太差,Cyc难以跟上知识时代的变化,经常保留几十年前的知识水平;Cyc也难以处理复杂语言环境下的知识联系,毕竟它的信息接收与处理思路还是比较古老的。
3、缺乏标准:在输出端,Cyc最严重的问题是推理出的结果缺乏标准化判断体系。没有类似深度学习的监督机制,Cyc说的对与不对都无从判断。这给其应用场景带来了巨大的尴尬。
4、缺乏应用能力:前文讨论的Cyc价值,很多是依托应用产品开发人员与垂直行业人才来完成。但这个项目确实太不主流了,如今已经很少有人才和企业愿意尝试从Cyc展开自己的事业。数十年间,Cyc的应用度一直不高。总体来看若干年中的Cyc应用案例,都是表征价值大于实际价值。
这个目标打包一切人类知识的人工智能计划,一方面已经远离尘嚣,一方面确实还坚强的活着。如果做个拟人化,Cyc项目让我联想到这样一个故事:一位叱咤江湖的武林门派掌门人,在巅峰时决定闭关修炼,参习绝世武功。在他闭关三十余年的时光里,江湖上风起云涌,甚至连他的门派都被人剿灭了。
这位武林奇人,就这么继续隐遁山林,虽然世人已经把他遗忘,但如果一旦有他神功大成的那一天……后边自己脑补吧,真诚希望会有那一天。