生物信息学系列博客索引 生物信息学(1)——双序列比对之Needleman-Wunsch(NW)算法详解及C++实现 生物信息学(2)——双序列比对之Smith-Waterman(SW)算法详解 生物信息学(3)——双序列比对之BLAST算法简介 生物信息学(4)——多序列比对之CLUSTAL算法详解及C++实现 生物信息学(5)——基于CUDA的多序列比对并行算法的设计与代码实现 1. BLAST算法简介 动态规划算法如生物信息学(1)与生物信息学(2)两篇提到的NW与SW算法肯定能得到最优解(最优分为全局最优与…

2021年11月6日 0条评论 5点热度 阅读全文

目录 1 序列比对中的基本概念 2 利用动态规划进行全局比对 2.1 枚举法(Enumerate)? 2.2 动态规划法(Needleman-Wunsch algorithm) 2.3 考虑仿射空位罚分 3. 从全局比对到局部比对 Pairwise Sequence Alignment 双序列比对 给定两个序列,判断其相似性。相似的序列可能有相似的结构,从而有相似的功能。不同物种中相似的序列,往往可能有相似的祖先。 1 序列比对中的基本概念 先看一个在线工具: 结果: “|”代表相同的残基,“ : ”和“ . ”代…

2021年9月29日 0条评论 5点热度 阅读全文

生物信息学系列博客索引 生物信息学(1)——双序列比对之Needleman-Wunsch(NW)算法详解及C++实现 生物信息学(2)——双序列比对之Smith-Waterman(SW)算法详解 生物信息学(3)——双序列比对之BLAST算法简介 生物信息学(4)——多序列比对之CLUSTAL算法详解及C++实现 生物信息学(5)——基于CUDA的多序列比对并行算法的设计与代码实现 1. BLAST算法简介 动态规划算法如生物信息学(1)与生物信息学(2)两篇提到的NW与SW算法肯定能得到最优解(最优分为全局最优与…

2021年6月25日 0条评论 8点热度 阅读全文

在刚开始学的时候不会用R来计算相关性系数,也不会画图,结果博主很悲催地用perl的svg进行画图,很久之前的作品: #!/usr/bin/env perl use warnings; use strict; use lib "/bin/svg_lib"; use PLOT qw(Paper End Point Rect Line Text Polyline Path); die "Usage:perl $0 <file.list>\n" unless @ARGV == 1; my $xml = (); …

2021年5月31日 0条评论 6点热度 阅读全文

比较是科学研究中最常见的研究方法之一,通过比较寻找研究对象可能具备的某些特征和特性。序列比较的理论基础是进化学说:如果两个序列之间具有足够高的相似性,那么两者可能是共同的进化祖先经过序列内残基的替换,残基或序列片段的缺失或插入以及序列重组等遗传变异过程分别演化而来。 序列比较的目的主要有两点: 根据相似性通过已知序列来预测未知序列的结构和功能 推断序列之间的同源性,推测进化关系 相似性 同源性 任意两条序列都有可能具有一定的相似性,可以利用一个数值进行表示相似程度,所以相似性也就是序列比对结果中相同部分所占比例的大…

2021年5月10日 0条评论 5点热度 阅读全文

生物信息学系列博客索引 生物信息学(1)——双序列比对之Needleman-Wunsch(NW)算法详解及C++实现 生物信息学(2)——双序列比对之Smith-Waterman(SW)算法详解 生物信息学(3)——双序列比对之BLAST算法简介 生物信息学(4)——多序列比对之CLUSTAL算法详解及C++实现 生物信息学(5)——基于CUDA的多序列比对并行算法的设计与代码实现 1. 设计并行算法的原因 虽然 CLUSTAL 算法具有较高的精度,但是由于其构造导向树的距离,即两 两比对的过程,需要迭代调用双序列…

2021年5月5日 0条评论 3点热度 阅读全文

生信论文笔记---AlignGraph2: similar genome-assisted reassembly pipeline for PacBio long reads 期刊 Key Words 数据来源 涉及算法软件 本文内容大概 创新点 代码地址 期刊 Briefings in Bioinformatics From GUOHUA WANG Key Words genome assembly; similar genome; de Brujin graph 数据来源 用PacBio long read,重…

2021年4月22日 0条评论 26点热度 阅读全文

基因组组装完成后,或者是完成了草图,就不可避免遇到一个问题,需要对基因组序列进行注释。注释之前首先得构建基因模型,有三种策略: 从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低 同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型搞,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点 基于转录组预测(transcriptome-based prediction):通过物…

2021年3月23日 0条评论 10点热度 阅读全文

多序列比对介绍 多序列比对,指对两条以上的生物序列进行全局比对。 多序列比对的用途 确认:一个未知的序列是否属于某个家族。 建立:系统发生树,查看物种间或者序列间的关系。 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守的片段。 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列是否也具有该功能。 其他:预测蛋白质/RNA的二级结构。 多序列比对的算法 目前所有的多序列比对工具都不是很完美的,它们都使用一种近似的算法。 对要进行多序列比…

2021年2月20日 0条评论 2点热度 阅读全文

第三章   序列数据库搜索 3.1 序列数据库 Sequence Database Searching Rather than do the alignment pair-wise, it's more often to search sequence database in a high-througnput style. Or, identify similarities between: novel query sequence (whose structures and fun…

2021年1月26日 0条评论 3点热度 阅读全文