设为首页收藏本站

中国病毒学论坛|我们一直在努力!

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 193|回复: 2

[原创] 华人新建一种基因序列比较的快速矢量方法

[复制链接]

20

帖子

14

学分

192

金币

病毒学院小学生

Rank: 2Rank: 2

积分
14
发表于 2017-9-27 10:27:47 | 显示全部楼层 |阅读模式
       近日,国际著名期刊Nature子刊Scientific Reports刊登了清华大学数学系的Yongkun Li 等人的论文。该研究构建了一个新型的18维矢量方法来比较生物序列,新颖之处在于将序列某些重要的物理化学性质合并其中。该工作揭示了新方法比传统方法更快,更适合大型序列,能提供准确的进化关系,为病毒等的进化树构建提供了新的思路。
      传统地,用于基因序列比较的方法都广泛地以序列对齐为基础。但是,这些方法非常耗时且内存占用率更高。因此,无序列对齐的方法近年来备受关注,最近已应用于种系发生。现行的四种无对齐法有各自的缺陷,于是研究者构建了一个18维特征矢量来显示一个DNA序列。这个矢量包含四种碱基每种的出现频率,核苷酸的平均位置和核苷酸的生物化学性质。
      为验证该方法的有效性,研究者将它应用于不同的数据集,如哺乳动物线粒体基因组,病毒和细菌基因组。序列长度从10,000到几百万个碱基对。每个数据集,用新算法计算基因序列的多重编码矢量。研究者用无对齐法中的FFP法作为比较,用MEGA软件为这两种方法做种系发生,通过对哺乳动物、甲型流感病毒、人鼻病毒、埃博拉病毒、冠状病毒、细菌应用两种算法构建进化树,发现新算法速度更快,准确性更高。与Clustal W 算法相比,其不能完成59个细菌的大数据的序列对齐,而新方法仅用5.61分钟就完成了数字矢量的产生。
图1. 41个线粒体基因组序列以多重编码矢量法构建的进化树
图2. 113个人类鼻病毒和3个HEV-C以多重编码矢量法构建的进化树   
图3.  埃博拉病毒属59个病毒以多重编码矢量法构建的进化树
        然而,新算法也有待改进之处:一,用于种系发生的序列必须接近完整,使用部分基因组序列会导致产生不正确的进化关系;二,尽管不需要多重序列对齐,空隙会自动地插入序列以保证它们的长度相同,这会消耗大量时间。   
   综上,该研究构建了一个新型18维矢量方法来比较生物序列,比传统方法更快,更适合大型的序列,能提供准确的进化关系,为病毒等的进化树构建提供了新的思路。

   

781

帖子

290

学分

1830

金币

版主

Rank: 7Rank: 7

积分
290
QQ
发表于 2017-9-29 12:30:20 | 显示全部楼层
图片都不显示
好好学习,天天向上!

20

帖子

14

学分

192

金币

病毒学院小学生

Rank: 2Rank: 2

积分
14
 楼主| 发表于 2017-10-6 22:17:40 | 显示全部楼层
下回改!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|论坛App下载|Archiver|小黑屋|中国病毒学论坛    

GMT+8, 2017-12-12 12:33 , Processed in 0.251678 second(s), 32 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表