我看生信

时隔两年,今天再一次聊聊这个话题,相信会有不同的感受。

生物信息学是一门学科,经过近十几年的发展,已经成为一门较为完备的学科,有自成体系的方法。

总的来说,生信的方法可以分为两类:一类是流程化的、封装好的、有操作界面的,只需要点点点就好的,比如各种云分析平台,还有著名的MEGA、TBtools;一类是通过命令行交互的,也就是需要敲代码的。不妨把前者称为界面型,后者成为命令行型。

两年前,我为生信的门槛低而感到担忧,因为门槛意味着护城河,意味着核心竞争力。分子实验需要各式各样的仪器设备,离心机、超净台、通风橱、移液枪、烘箱、灭菌锅、培养箱、PCR仪、制水机、显微镜……这些数不清的价值高昂的仪器设备,光是学会操做都需要不少时间,价值高、耗时,就是分子实验的门槛,前者体现单位的核心竞争力,后者体现个人的核心竞争力。而生信呢,所有的操作只需要一套键鼠就可以完成,甚至连鼠标都可以不用。学习敲键盘,需要多长时间呢,有谁不会敲呢?我做过最复杂繁琐的事情,就是骑电瓶车到机房,拨通管理员电话,请他开启机房的门,然后在一排排服务器里找到自己课题组的那台,按一下电源键,过一会儿再按一下,然后锁好门,向管理员汇报。这一套复杂的操作,他们一般称之为“重启一下”。如此看来生信的门槛似乎是低到没有的。

但是生信真的没有门槛吗,不是的。基因家族分析,是生信领域最简单的研究方向之一了,再直白点,就是最容易水文章的方向,没错,就是我现在在做的这个方向。可是如果连“家族”是什么都不清楚的话,是没有办法开展研究的,两年前的我就是这种状态,虽然有四年的本科生物学背景,却连“家族”都不知道,一度不知道该如何下手。所以如果想做生信分析的话,需要具备一些基础知识,“基因的结构”、“基因组序列”和“基因序列”这些概念即使不能准确记诵,也应该能用自己的话说出来它们的区别,至少见到的时候不查资料就知道它们是有区别的,如果连这一点都做不到,要么应该回去补这类知识,要么应该放弃,还没学会走的时候不应该奔跑。做分子实验应该也是类似的,以跑电泳为例,电压设置多少伏,上游接正极还是负极,这些问题我没法一下子答上来的,我应该要么在实验前就搞清楚这些问题,要么就放弃做分子实验。术业有专攻。

互联网如此发达的今天,知识太容易获取了,知识的门槛算不了什么门槛,我所学的大多数生信知识都是从网上获取的(这里没有说“全部”,是因为我不能忽略我导师的贡献)。那么我们生信专业的童鞋竞争力在哪里呢?在于脑子,用脑子做那些尚未界面化的东西,把尚未界面化东西界面化,降低它们的使用门槛,而不在于熟练地用鼠标点点点那些界面上的按钮,不然就对不起生信专业的身份了。不是看不起那些界面型的东西,而是说比起怎么用那些软件,我更感兴趣的是那些软件怎做出来的。如果把生信比作汽车,界面型的方法就好比汽车驾驶技术,比较简单,适用于大众,命令行型的方法就像是汽车制造技术。如果你问一个汽车制造工程师怎么操作一款他没见过的车型,他如果不会,是应该被宽宥的。不不不,我不是“汽车工程师”,以我的水平,说自己是生产汽车的,这实在吹牛,我充其量就是个造轮胎的。

如果你问我,你的软件怎么用,我可能真的不会,不是藏着掖着,我没有那么小气。如果你问我,怎么做生信分析,拜托,你知道自己在问什么吗?

作为生信人,能帮到大家很开心,说庸俗点,发文章不挂我名也ok,致谢都没有也ok,但是希望大家能够知人善用,更好地更大地发挥生信人的作用,不要问一些奇奇怪怪的问题,请我帮一些奇奇怪怪的忙了。

嗯,可能过一段时间我会写一份《生信人使用手册》。