【盘点】计算生物学:从“什么是”到“什么不是”

作者
分类 头条, 科研
来源 生物谷

2015年是《Plos Computational Biology》创刊十周年,借此机会,正好可以梳理十年来计算生物学领域的发展,展望今后计算生物学的机遇和挑战。作为计算生物学领域的著名期刊,《Plos Computational Biology》几乎囊括了该领域的所有方向,总结该期刊的发展历程也正好可以讲述计算生物学领域的十年来的成就。

从“什么是计算生物学”到“什么不是计算生物学”

实际上计算生物学的起步很早,发展至今已经有了很多的分支和方向。计算生物学的分支方向已经融入了生命科学的不同,甚至已经成为了基础生物学密不可分的一部分,深度融入了从分子尺度到生态系统尺度的不同领域。因此,我们现在不会再问“什么是计算生物学?”相反,回顾这些年来发表在该期刊的文章,更加合适的问题应该是“生命科学研究中,有没有哪些领域和方向没有涉及到计算生物学?”现在大多数的研究院所都会招募在计算生物学领域有所建树的研究者。而且越来越多的地方开始培训计算生物学的研究生博士生,而且有该领域的经历也可以算是自己个人简介上面浓墨重彩的一笔。这正说明了,计算生物学越来越得到了生命科学领域的认可。

下一个十年会有哪些奇迹

那么,下一个十年又会怎样呢?相比之前,有哪些事情是之前无法实现的呢?近年来,随着海量实验数据的积累和计算机性能的快速提升,计算生物学得到了长足的发展。这两个方面将会继续推动计算生物学的前进,都有可能实现从量变到质变的转变,从而实现计算生物学飞跃式发展。尤其是当大数据时代已经到了,巨量生物学数据必然要求着数据分析的软件和方法有很大进步,这种倒逼或许会促进从数据到知识的转化。美国国立卫生研究院2012年提出的BD2K(Big Data to Knowledge)项目正是旨在催化从数据到知识的转化。

大数据到大数据集

数据的量级在下一个十年可能会更大。生物学领域的数据将会更加量化,这能够补充传统生物学领域那些描述性的数据。举个例子,未来研究者会持续分辨、分类和量化在不同环境中的微生物群体,这些微生物可能在不同的人身体的不同位置、组织,这些人有不同的健康状态、年龄等。还有,这些微生物可能在不同的土壤、水域,整合这些微生物的环境信息也是非常必要和有意义的。再例如,发现和分类具有平行效果或者冗余效果的细胞信号通路。还有,可以发现在不同细胞环境下的转录后翻译的模式。这些数据都已经不单单是传统的生物数据,而是更多地整合了大量包括相关信息及其环境的大数据集。可以说这些数据集将会包括生态系统,诊断模式,不同的肿瘤类型等等。整合这些信息,可能促进分析方法和模型的进一步发展,这是之前所不敢想的。

标准化数据处理可能容忍生物多样性和统计误差

传统生物学实验往往局限于特定的条件,依赖于特定的方法和实验材料。但是,随着数据量变大,数据的尺度也是非常宏大,如果能够发展新的分析方法,或许能够从海量数据中找到具有生物学意义的、稳定的、普适性的知识,这些知识可能针对不同的遗传多样性是普适的,而且能够容忍统计误差。可以预料到的是,数据的精确性和连续性是需要克服的最大障碍。这些原始数据里面包含了大量的背景信息、背景噪音。比如表达强度、结合强度以及mRNA-蛋白质相关性等,都会成为背景噪音的来源。这些问题都需要解决,因此,如果有标准化的处理方法能够针对不同的实验,合理地将随机性噪音统一化,那么这些问题都可以迎刃而解。此外,生命科学领域,来自仪器的测量误差、遗传多样性、多样化的分子结构都对数据的标准化处理和分析造成了困难。解决了数据标准化处理方法,那么计算生物未来将会非常光明。

分析整合数据集需要超级计算机

单独的数据集仅仅只能提供有限的信息,如果能够整合不同生物学领域、尺度的数控,那么意义将非常重大。然而,面对这样的整合数据集,现有的方法和计算能力还远远不够。考虑到能够使用这些单独数据集一起得到更多有用的信息,因此需要有一个单独的数据分析框架,能够深度融合不同的生物组织样式、尺度的数据。现有的计算能力还十分有限,我们对生物系统的模拟还只限于很小的体系和很短的时间尺度,这些体系只占到了细胞的很小一部分,而且也很难做到非常真实地模拟生物系统。如果需要模拟整合体系长时间尺度的系统,则需要非常大量的计算能力。超级计算机应用在该领域非常必要,起码需要达到百亿亿次每秒的计算速度才能算能用。

数据共享意义重大

Plos Computational Biology》是一个具有开发阅读权限的期刊,在这样开发的框架下,作者们鼓励数据和工具的共享。而且,作者们也坚定地认为,这种共享是非常重要的。生物计算正以前所未有的速度在发展和革新,开放共享的数据和软件将会极大促进全球范围内的研究者们的参与和贡献。

没人能够预测未来的计算生物学会有怎样的走向,但是,有一点是肯定不会变的,那就是未来的世界计算机只会越来越重要。而且生物领域的计算方法和模型也会越来越多,也会更加深度地整合进入不同的生物学分支。标准化的数据分析方法可能会带来更加可信的结果,这些方法允许不同的数据的整合以及较小的统计学误差。大数据量的积累,如果用了超级计算机的助力,无疑会对未来的计算生物学产生巨大的推动。《Plos Computational Biology》历经十年发展,也已经走向成熟,如今再问“什么是计算生物学?”虽然也没有问题,但是显然,问“什么不是计算生物学?”会更加合适。和国际计算生物学学会(International Society for Computational Biology)携手、和越来越多的读者一起,《Plos Computational Biology》将继续作为计算生物学发展和交流的平台之一,见证计算生物学在下一个十年更加辉煌。

联系我们

您有什么建议或意见,欢迎留言联系我们!

Not readable? Change text. captcha txt
77