2021.01.05【读书笔记】丨生物信息学与功能基因组学(第四章 局部比对搜索基本工具-BLAST 下)

2021年11月9日 3点热度 0条评论 来源: 穆易青
  • BLAST算法使用局部比对搜索的策略
    • BLAST算法组成部分:列表、扫描、延伸
      • BLASTP算法可以描述为以下3个阶段
        • 蛋白质搜索中,BLAST编译一个初步的两两比对序列,称为字段对
          • BLASTP算法编译了一个由查询序列生成的固定长度为w的字段列表。使用比对序列的分数建立一个阈值T。BLASTP字段大小默认为3(BLASTN为11),则20种氨基酸可能字段共有8000个。修改“字段大小”参数可以修改查询时间和灵敏度。
        • 算法在整个数据库中扫描打到某个阈值分数T的字段对。若扫描出结果,则使用有空位和无空位比对方法延伸匹配区段。BLAST延伸字段对来寻找分数超过阈值S的结果,并输出给用户。分数则通过打分矩阵并考虑空位罚分计算出来
          • 达到阈值T的片段对构成的列表编译完后,BLAST算法将对整个数据库进行扫描来找到匹配。目前BLAST版本(以书第三版为准),算法寻找两个间隔在一定距离为A之内的字段,然后生这两个匹配的一个无空位的延伸。
        • 回溯的结果会展示出插入或者缺失位点,以及不匹配的区段
          • 在BLASTP搜索中,可以修改f参数,调整默认值(11)来比较不同阈值水平下的影响
            • 结论:更低的阈值参数导致更精确而更慢的搜索
            • 灵敏度和速度之间的权衡就是BLAST算法的核心
    • BLAST算法:局部比对搜索的统计学和期望值E(较难)
      • 为了量化匹配显著还是随即发生,我们需要了解BLAST的统计学显著性。
        • 用查询序列与一个长度统一的随机序列的数据库进行比对,将其得分进行做图后,形状是一个机制分布图(虚线)。这种分布性质能使我们估计一个搜索的最高得分随机出现的可能性。
      • 描述随机条件下得分至少为某个特定值S的HSP的期望值公式为:E=Kmne^-λS
        • E:期望值
        • S:比对分数
        • K:搜索空间的度量因子(数据库大小)
        • λ:度量打分系统的参数
        • m/n:两条比对序列的长度
      • 公式具有以下特点:
        • 随着S的增加,E值成指数下降,E值接近零时,一个比对随机发生的可能性也就会接近于0
        • 一对随机的氨基酸的期望比对得分必须是负值
        • 查询使用的数据库大小以及序列长度将影响某个特定比对随即发生的可能性
        • 公式理论根据无空位比对推导,对于有空位的比对,需要通过模拟K、λ以及熵值H来估计
    • BLAST算法:E值与P值间的关系
      • P值是指进行相同比对时,随机序列的得分大于等于查询序列得分的概率
      • 显著性最高的是接近0的P值,P值与E值是反映比对显著性的两种不同方式,一个具体给定E值得HSP的概率为:p=1-e^-E
  • BLAST的搜索策略
    • 一般性概念
      • BLAST搜索是一种用来对蛋白质或者DNA序列数据库进行搜索的工具。
      • 搜索策略概览
    • BLAST搜索的原则
      • 如何凭借搜索结果的显著性
        • 判断基因或蛋白质之间同源性的问题不能仅仅依赖于序列,还需要使用生物学上的标准来支持同源性的推导。
        • 以人类RBP4蛋白质作为查询序列,限制在RefSeq数据库中进行BLAST搜索,为了确定两个蛋白质是否同源,我们可以提出以下几个问题:
          • 1.期望值是否显著?否
          • 2.两个蛋白质是否具有相近大小?否
          • 3.两个蛋白质是否具有相同的模体或特征信号?是(GXW,见4.17)
          • 4.两个蛋白质能否作为一个合理的多重序列比对的一部分?能
          • 5.两个蛋白质是否共有一个相似的生物学功能?是
          • 6.两个蛋白质是否共有一个相似的三维结构?是,杯状的花萼结构
          • 7.基因组学能否提供信息?能
          • 8.如果一个BLAST搜索得到一个蛋白质的边缘匹配,以这个远缘相关蛋白质作为查询序列再进行一次新的BLAST搜索。
      • 如何解决结果过多的问题
        • 选择RefSeq数据库,去冗余
        • 限制物种类别
        • 选择序列的一部分进行搜索
        • 调整打分矩阵
        • 调整期望值E
      • 如何解决结果过少问题
        • 去掉限制,降低期望值阈值
        • 使用高PAM、低BLOSUM值的打分矩阵
      • 案例:多结构域蛋白(HIV-1 pol)的BLAST检索
        • 搜索概述
        • 多个匹配项期望值极低并且均与不同HIV病毒隔离群相对应
          • 观察氨基酸替换频率的差异反映选择性进化压力。
        • 重新设置RefSeq蛋白质数据库,能够看到业主,赤拟谷盗和一组真菌中都存在一些同源蛋白质
        • 继续了解Pol蛋白在整个生命树中的分布情况,可以利用NP_057849作为查询序列,限制物种为细菌得到结果
        • 了解与HIV-1 POL蛋白同源的人类蛋白质,可以将物种改为人类,即可找到匹配
  • 使用BLAST预测基因,找到新基因
    • 找新基因的原因:
      • 想要在某个物种上研究一个尚未被刻画过的蛋白
      • 某个蛋白在一个物种的组织中描述过,而在另一个物种相同组织中尚未被发现
      • 想要研究病毒是否拥有球蛋白或者脂质转运蛋白
      • 当已知蛋白无法颛臾你感兴趣的糖类,如何在数据库中找到新的转运蛋白
    • 寻找新基因策略
      • 策略总结
      • 寻找步骤
        • 1.选择一个感兴趣的蛋白质的名字,包括对应的物种和访问编号。
        • 2.选择一个由基因组DNA或者表达序列标签(ESTs)组成的DNA数据库,在NCBI或者其他网站上进行TBLASTN搜索
        • 3.搜集疑似新蛋白的有关信息
          • 根据第二步得到的序列继续BLAST搜索得到更加完整的序列
        • 4.证实基因及其对应蛋白质是新发现的。
          • 同一物种中氨基酸一致性没有达到100%
          • 不同物种达到100%一致性
          • 如果没有数据库匹配原始查询序列,需要重头开始
        • 5.对新发现的蛋白质与家族其他成员进行多重序列比对
        • 6.用邻接法、最大简约法等构建一个系统发育树
        • 7.预测你发现的蛋白质的二级和三级结构(第13章),并将其与一直结构比较
        • 8.确定该基因受到的进化选择是正向还是负向(第七章)
        • 9.探讨新发现的基因的重要性
      • 项目优点
        • 让你了解何时以及如何使用BLAST系列程序
        • 让你熟悉多种可供搜索的数据库
        • 要求你解析不同类型的BLAST输出结果
  • 展望
    • BLAST搜索已经陈炜一种不可或缺的工具,用以分析一个DNA或蛋白质序列与公共数据库中数百万甚至数万亿条序列的关系。然而,对于用蛋白质查询序列进行更常规搜索的大多数生物学家而言,他们更倾向于使用第五章介绍的DELTA—BLAST或HMMER程序,因为这些程序构建的打分矩阵更优。
  • 建议
    • 练习多次搜索,探索可选参数阅读NCBI文档来学习参数。
    • 尝试使用客户端BLAST进行比对序列
    原文作者:穆易青
    原文地址: https://blog.csdn.net/yangl7/article/details/112255395
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系管理员进行删除。