生物技术启发下的信息技术革新
2020-08-01 08:01:13
  • 0
  • 0
  • 0

来源:中国科学院院刊

作者:汪洋、陈枢舒、魏 鑫、孔丽华、洪学海、廖方宇

现代信息技术发展途径

一般意义上,学术界普遍认为第一次技术革命于18世纪中叶从英国开始,是以蒸汽机的发明和应用为标志,开创了以机器代替手工劳动的工业社会时代;第二次技术革命开始于19世纪30年代,是以电力和内燃机的发明为标志,它将工业社会带入电气化时代;第三次技术革命始于20世纪40年代,其主要标志是信息技术的发展,它将我们带入了信息时代。第三次技术革命的标志性成果为:1946年第一台电子计算机诞生,1958年第一个集成电路诞生,以及1969年互联网的出现。从此,信息技术的发展一直支撑、牵引着各学科领域以及各行各业的发展。

从第一支点接触晶体管到现代的鳍式场效应晶体管(FinFET),微纳电子器件技术的发展已经历了70多年的历史,并直接推动了集成电路技术的进步。集成电路技术在发展过程中由于其高度的可继承性,极大地降低了集成电路技术创新的难度。因此,在集成电路高速发展的这几十年中,出现了集成电路产业的摩尔(Moore)定律。这一定律在平面晶体管时代指导着集成电路制造企业按部就班地发展其器件设计和工艺开发,从经济角度看,极大地缩减了研发流程和成本。因此,在很长一段时间,摩尔定律为器件技术“制定”了宏观的发展方向。与之相应,器件结构上没有出现重大的变革,只是在工艺制备方面不断提高加工精度和改善材料特性。

当前,芯片的7nm工艺量产已被半导体制造商陆续提上日程,台积电、三星等公司正在计划近年内研发3nm工艺。然而,复杂的制造工艺和巨大的投入成本已给芯片制造商带来沉重的负担;芯片本身的高能耗、稳定性以及安全性也成为芯片技术发展的巨大挑战,集成电路的摩尔定律已经不能再维持,台积电专家预测3nm可能是晶体管的发展极限。

从这一刻起,需要为信息技术的长期发展寻找新的技术突破口。当前,许多信息技术领域专家将目光转向了生物体,希望从生物体中寻找启发。因为经过35亿年的生命演化与协同进化,生物体形成了简约、优美、复杂、多样化的结构、形态、运动和变化,所以生物世界是科技创新取之不尽的知识宝库和学习源泉。飞机、潜水艇、日光灯、雷达都是人类通过研究生物体的结构与工作原理发明出来的技术与工具,为人类文明带来了巨大的进步。

20世纪40年代,科学家开始普遍认识到,生物与机器在自动控制、通信和统计动力学等一系列问题上具有共同之处。美国科学家、控制论的创始人维纳(N. Wiener)指出,控制论是研究机器和生物体中控制与通信的科学。随着两者研究相互结合渗透,诞生了仿生学这门新的交叉学科。“提出模型,进行模拟”,通过向生命系统学习和模拟,创造出数学模型与技术模型,使人类从崭新的视角透视世界,实现科学技术的创新。

借助仿生学的研究理念与方法,人们在信息、控制、力学、材料、医学等多个领域取得了大量成就。路甬祥院士在2003年第220届香山会议上发表的《仿生学的意义与发展》主题报告中指出:“人的创造欲是科技创新的根本动力,自然和社会是我们认知和创新服务的对象,也是我们学习的最好老师。”人们期待来自生物体的启发也可以再次为信息技术的突破带来启迪。

2、新时代信息技术面临的需求与挑战

数据存储需求

存储技术因其物理限制,自计算机诞生以来就是一项需要不断革新以满足需求的技术。存储介质经历过穿孔纸带、磁带、机械硬盘、软盘、光盘等时代,发展演变为现在使用的固态驱动器(SSD)、存储级内存(SCM)等。

近年来,随着大数据时代的到来,信息数据存储量呈现出持续的爆发性增长。Intel 公司预测到2020年,全球数据总量将达到44ZB(1 ZB=10244 GB)。大科学装置所产出的数据愈发增速明显。例如,欧洲核子研究中心(CERN)的HL-LHC(High Luminosity - Large Hadron Collider)在2024年升级完成后将总共产生约3—4EB(1 EB=10243 GB)实验数据;平方公里阵列射电望远镜(SKA)项目在建成后,每年将产生600PB(1 PB=10242 GB)数据。

海量数据的产生给传统数据存储方式带来了巨大挑战,数据增长的速度已经远超过单位成本下存储器容量增长的速度,这会导致数据存储成本越来越高。而且,传统数据存储方法需要占用巨大的空间和产生巨大的生产维护能耗,同时作为存储媒介的保存时间相对有限。当前被广泛使用的机械硬盘、固态硬盘、闪存等,预期寿命均在10年左右,且体积较大,维护成本高昂,经常面临数据丢失的风险。这些都将对数据存储的发展产生限制。

科学家不得不探索多种数据存储技术,以降低数据存储成本,提高数据存储效能。生物领域的DNA(脱氧核糖核酸)编码在数据密度和保存时间方面较现有存储技术具有一定优势。在精细复杂的生命遗传需求下,DNA存储信息密度极高,且由于其特殊的双螺旋结构,物理化学特性稳定,当避光且湿度温度适宜时,可保存长达1000年。此外,科学家也在探索以光激活蛋白质作为数据存储介质的方法。以仿生方式解决困扰存储技术多年的问题,让DNA从记录生命遗传信息发展到记录人类文明信息,将是一项非常有前景的研究方向。

数据智能处理的需求

面对如此海量的数据,人们已经不能满足计算机机械地执行人类的指令,而是希望计算机能够像人一样具有思维,智能地对数据进行分析和处理,进而帮助人类从海量的数据中获取信息和知识。

人工智能(AI)被称为21世纪世界三大尖端技术之一,研究如何使用计算机,对人的某些思维过程和智能行为(如学习、推理、思考、规划等)进行模拟。主要包括计算机实现智能的原理和制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。

自1950年“图灵测试”被提出,1956年达特茅斯会议明确“人工智能”目标为“使一部机器的反应方式像是一个人在行动时所依据的智能”。与计算机运用大量运算资源,通过一步步推导来解决困难问题有所不同,人类解决问题的模式通常是用快捷而直观的判断来处理不确定或不完整的问题。

人工智能技术近年来的再次蓬勃发展得益于计算速度的大幅提升,以及机器学习在若干领域取得的突破性进展。目前,计算机已经能够实现类似于人脑神经的连接模型,使计算机表现出人类的“智能化”。

图 1 人工智能发展历程

然而,人脑是由数百种不同类型的上千亿个神经元组成的极为复杂的生物组织,其神经元连接的数量在1014 量级。目前,谷歌公司最复杂的深度学习网络仅达到107量级,与人脑还相差107量级。因此,科学家希望能够对人脑的实际情况进行建模,了解人脑真正的工作机制,以帮助人类真正实现“人工智能”。

由瑞士洛桑联邦理工学院(EPFL)主持的“蓝脑计划”经过10年努力,目前较完整地完成了特定脑区内皮质柱的模拟构建;然而,对脑功能相关的神经元网络结构和神经信息处理机制仍不清楚。此外,不同于线性的计算机系统,人脑处于全方位的互联状态——人脑中的逻辑和记忆紧密关联,其密度和多样性均是现代计算机的数十亿倍。同时,人脑执行计算任务所消耗的能量要比目前通用的计算机低很多;在处理等量任务时,目前没有任何人工系统能够与人脑的低能耗相媲美。

为了对人脑智能与认知行为机制进行进一步探索研究,同时大幅提升计算性能、降低计算能耗,神经形态计算成为人们关注的焦点。神经形态计算创造了高度连接的合成神经元和突触,可用于神经科学理论建模,并解决具有挑战性的机器学习问题。其旨在用与传统硬件完全不同的方式处理信息,通过模仿人脑构造来大幅提高计算机的思维能力与反应能力。同时,神经形态计算可将负责数据存储和数据处理的元件整合到同一个互联模块当中,解决了传统计算机存储器与中央处理器之间数据不断移动所消耗的大量能源,能效更高,性能更强。

研究灵感来源于大脑的计算机、器件和计算模型的神经形态计算,是由当前弱人工智能向强人工智能发展的一条重要途径。神经形态计算方法与传统计算方式相比,具有自主学习能力、动态调节能力,还具有泛化性好、能耗低等特点。其前景目标是创造像大脑一样具有感知、学习和适应能力的系统,使机器具备低功耗、高效率、高容错等特性。

而在系统硬件结构方面,由于人工神经网络与传统冯 · 诺依曼体系结构完全不同,其在经典计算机上的运行能耗居高不下。超大规模的深度神经网络对中央处理器与内存分离的计算机体系架构带来了巨大的挑战,数据的传输给整个系统带来了不可调谐的矛盾。按照人脑神经网络结构设计与其算法相适应的新形态机器结构及硬件设备成为新的研究热点。

在人脑中,相邻神经元细胞之间通过化学放电,来实现神经网络复杂可变的神经系统交互。对于生产通过模仿制造人造突触,模拟出与神经元相似的计算节点,从而实现非比特计算的新型芯片,各国已进行了多项探索。当前发布的类脑芯片在低功耗和超高反应速度方面都具有值得期待的效果,可能成为人工智能领域未来发展的重要助力。

3、基于生物启发开展的信息技术现状与趋势

DNA存储技术

近年来,DNA数据存储逐渐成为全球研究热点。DNA 存储技术以人工合成的脱氧核苷酸链为存储介质,对文档、图片和音频等信息进行存储和读取。用A、T、C、G 4种碱基对应二进制数据进行编码,使得数据以脱氧核苷酸链的形式进行构建,合成相应的DNA分子进行储存。其流程包括将数字信息转换编码为DNA序列,将序列合成写入DNA分子,将其组织到库中进行长期存储、检索并进行随机访问,测序读取并将其解码转换回数字数据。DNA存储作为分子级的生物存储技术,相对于传统数据存储具有存储密度大、能耗低、安全稳定等优点,有望成为一项满足海量数据存储需求的颠覆性技术。

1988年,哈佛医学院与Davis首次将二进制与碱基相对应,在大肠杆菌中插入了35字节DNA人工编码。DNA 存储器的构建模型于1995年被提出,从而为DNA存储技术的研究奠定了基础。DNA存储的技术框架(编码+纠错+地址的模式)现已基本成型。美、中、英等国的一些实验室已陆续实现了DNA数据存储,并计划推出商业服务。

美国哥伦比亚大学和纽约基因组中心于2017年提出一种最大化 DNA 存储技术,可在1g 的DNA分子内存储215PB信息 。微软公司于2019年3月公布了一种实现全自动化的DNA存储和检索系统。此外,还有研究人员对活体DNA存储开展了研究。

当前,DNA 存储技术仍然面临许多问题,科学家主要聚焦以下3个重点研究方向。

1、编解码方式及纠错机制

改进编码方案,充分利用DNA存储空间,减少冗余及误差。编码方案在DNA存储研究中相对较为成熟,四进制转换模型已成为DNA存储的主流转换模型,但现有存储方案的存储密度还有待继续通过建立模型得到改进提高。此外,由于DNA的人工合成无法应用在活细胞中酶的校正机制,合成、扩增和测序过程中的校正方案研究也是一项重点研究方向。Blawat等使用前向纠错技术来确保读取的准确性。

2、改进生物技术

研究操作简便的DNA合成及测序技术,以降低DNA存储成本。降低DNA测序成本一直是现代分子生物学中的一项重要技术方向。测序费用及时间成本的进一步降低也将为依赖这项技术的DNA存储提供更多发展空间。

3、随机存取

期望实现接近传统存储方式的随时随地写入或读取功能。2016年,美国华盛顿大学与微软公司合作实现了具有随机访问和内容重写功能的DNA存储。使用通过聚合酶链式反应(PCR)精确复制需要提取字符串的副本可以加快读取速度,但与磁介质存储读取相比仍有差距。

利用文献计量的方法对 DNA 存储技术的论文和专利进行分析可知,在世界范围内,美国在该领域内投入的研究力量占据世界领先位置,其产出成果数量约是排名第二位的中国的2—3倍。发表趋势方面,美国在该领域论文的产出量在2004—2005年出现了小高峰,随后陷入瓶颈期,直到2015年左右重新开始迅速增长。

中国发表的相关论文数量仅在2017年超过5篇,而相关专利从2015年后达到5件/年左右,这表明我国在该领域研究尚处于萌芽期。我国相关研究方向主要涉及编码转制软件、DNA数据安全加密等方面,且研究尚未产生突出成果。

当前,苏州泓迅生物科技有限公司在DNA存储技术领域申请了2件相关专利,拥有自主知识产权的编码转制软件,可精确、快速地大规模和高通量合成DNA序列。天津大学宋香明针对现有 DNA 信息存储方案存储密度低,不能很好地发挥DNA分子的信息存储潜力的问题,将四进制哈夫曼DNA编码与汉明纠错码相结合,提出了一种具有高存储密度的DNA信息存储编码方案。中国科学院上海生命科学研究院 Li 等开展了关于DNA数据加密的研究工作。中国科学院武汉病毒研究所在分子合成即数据读写速度方面开展了相关改进研究。

从美国在DNA存储技术的投入来看,该技术具有非常广阔的未来发展前景。美国近年发布多项与DNA存储技术相关的项目公告:美国国防部高级研究计划局(DARPA)希望将“分子信息学”用于处理来自数据密集型军事应用领域的海量信息流;美国情报高级研究计划局(IARPA)计划开发的“分子信息存储”将具备1EB水平存储能力。现阶段来看DNA存储技术主要适用于存储期限较长,又无须频繁读取的信息。未来可应用于博物馆、档案馆、电影公司等各类型长期信息储存机构。DNA 存储作为新兴技术,在海量数据存储、机密数据存储与传递中具有巨大应用前景。

类脑芯片

区别于传统计算机芯片基于计算与存储单元分离的冯 · 诺依曼架构,以“神经形态”为主导的类脑芯片仿照大脑结构中神经元(计算)和突触(存储)单元集于一体,能够随传递的信号强弱和极性调整并保持传递效率,以极低功耗进行数据的异步、并行、低速和分布式处理。忆阻器是用于模仿大脑神经元功能的关键电子器件,它的研制成功使得神经网络芯片研究获得了重大进展,有助于实现脉冲时间相关的突触可塑性(STDP)学习规则。配合类脑计算方法的研究,实现神经拟态,在突破传统计算范式,形成“自主认知”新范式的同时,也突破了传统计算机体系结构局限。

伴随着“脑计划”的开展,各国涌现出大量神经形态芯片研究成果,包括IBM公司、高通公司、Intel公司以及欧盟“人脑计划”支持的曼彻斯特大学和海德堡大学等均有突出成果。

2011年8月,IBM公司首次研制出采用 CMOS 集成电路工艺制作的Ture North芯片并引发轰动;2014年,更新的第二代芯片,可编程神经元数量从256个增加到100万个,可编程突触从262144个增加到2.56亿个,每秒可执行460亿次突触运算,而功耗低至20 mW/cm2,仅为一代芯片的1/100;2016年,采用16枚 Ture North 芯片制造出一台神经元智能超级计算机,具有实时视频处理能力。

2016年,德国采用模拟电路实现以提高运行速度的BrainScaleS和英国不采用精确编程模型而具备容错性的SpiNNaker系统样机也上线运行。

2017年,由 Intel 公司发布的类脑芯片Loihi拥有13万个人造突触,并具有自主片上学习能力。2019年7月发布的首个大规模神经形态计算系统由64块 Loihi芯片组合而成,引入了脉冲时间相关的突触可塑性,在自动导航、路径导航等人工智能(AI)任务中表现出优于图形处理器(GPU)的功耗和处理能力。

2019年11月,新西兰坎特伯雷大学的研究团队研发了一种基于纳米粒子自组织的类脑计算芯片,该芯片通过原子级组件形成与脑结构类似的网络,能够模拟脑神经元网络信号。高通公司则将Zeroth认知平台搭载到商用处理器芯片中,以提升系统的认知计算能力,支持文字识别、图像识别、自动分类排列等实际应用。

我国近年来成立了多个类脑研究中心,包括中国科学院、北京大学、清华大学、浙江大学等单位,形成了多项技术积累。清华大学团队开发的“天机”系列类脑芯片可进行大规模神经元网络模拟,同时支持脉冲神经网络算法和人工神经网络算法;此外,该团队还建立了卷积神经网络新算法。北京大学团队研制出超速全时仿视网膜芯片,有望重塑视觉信息处理体系。浙江大学研发的脉冲神经网络芯片“达尔文”支持基于 LIF 神经元模型的脉冲神经网络建模。中国科学院计算技术研究所于 2012年研制的“寒武纪”芯片的技术方向不同于结构模拟,而是参考人脑感知认知的计算模型,使用专用指令集,并已发布了多个型号的终端系列芯片及云端芯片。

当前,类脑芯片的进展有目共睹,但距离大规模实际应用还面临许多亟待解决的问题。

1. 类脑芯片的任务性处理能力差,在满足智能算法实用性需求上,其计算能力仍有待提高。而与其适配的架构、算法、模型等也都还处于研发的初级阶段。需要进一步通过提炼神经网络处理中的共性运算特性,发展类脑神经元计算模型,使相同神经元电路模块实现不同的神经元功能,增强神经计算电路模块的任务处理能力,提升通用性。

2. 以硅晶片电路作为芯片材料实现神经元模拟所需要的工艺成本过高,有待于寻找合适的、与生物神经系统相似的替代材料,来设计高性价比的类神经计算芯片。

3. 当前类脑芯片的设计仅借鉴了脑信息处理过程中最基本的单元和机制,如神经元间连接、脉冲放电机制、存储计算相融合等;而更为复杂的信息处理单元的作用机制还未融入类脑计算体系的研究中,如神经微环路、皮质柱、脑区、多脑区协同等。未来需要进一步研究和借鉴脑的多尺度信息处理机制,应更多地关注全脑不同尺度计算单元之间的协同处理能力为脑信息处理带来的巨大优势。

4、结束语

随着科学技术的快速发展和人们需求的不断提升,信息技术领域涌现出大量技术难题,信息技术发展遭遇瓶颈。生物技术为信息技术的发展开辟了新的道路,通过向生命系统学习和模拟,借鉴生物技术研究提供的新思路、新原理和新理论,推动信息技术的未来发展,是未来科研创新的一个重要方向。

DNA以其特殊的结构模式,解决了困扰存储技术多年的存储空间和存储时间问题;神经形态计算通过模仿人脑构造来大幅提高计算机的思维能力与反应能力,降低计算能耗;类脑芯片在海量数据处理上的优势以及低能耗的特点,有望对于人工智能的自主学习、动态调节等能力发展提供支持,使其在提升使用效果、扩大应用范围上获得出众表现。

当前,虽然美国等发达国家在相关技术领域已取得了一些成果,但是DNA存储、神经形态计算在总体上还处于初始阶段,有大量的技术问题面临突破。一方面,我国应重视信息技术的战略性、前瞻性研究。信息技术已深入涉及各个行业与领域,一旦信息技术领域出现颠覆性技术,将对国家科技创新以及产业带来巨大影响。另一方面,生命体是人类科技创新的源泉,生物启发的信息技术将十分有应用前景。因此,我国应在相关技术领域及早布局,找准突破口,抓住关键问题,扬长避短、趋利避害,走出一条中国特色科技强国之路。

 
最新文章
相关阅读