从IGV-GSAme到IGV-GSAman:基因组结构注释工具的进化与需求分析
在前面写如上所述,为了执行与基因组相关的问题并获得准确的遗传结构注释信息,我放弃了IGV-GSAME,因为它的实现不够优雅。基于多次失败的基因组浏览器的基因开发,我终于选择重新设计并获得IGV-。启动此软件后,许多朋友非常感兴趣。实际上,这个领域确实是必要的,有两种主要情况:
基因组项目通常需要高质量的遗传结构注释,否则无论序列多么准确,每个人都无法使用它。
基因家族分析项目,因为大多数基因组没有准确的基因结构注释(阿拉伯具有基因结构注释误差,没有谈论大米,甚至不是其他更复杂的基因组);我基本上每天都会收到基因家族分析以审查手稿,您可以通过查看遗传结构图来决定是否重新进行重新处理。原因无所求,基因家族分析的基础是正确的序列。在错误的基因组遗传结构注释的背景下,对每个成员没有进行准确的结构校正。实际上,本文从一开始就是错误的,绝对不适合发布。
那么如何进行“基因结构注释校正”?当然是IGV-。自然,最好的证据是该基因结构得到了测序数据的支持,尤其是外显子边界和UTR部分。因此,在回复时,将有两个新场景:
一劳永逸,该物种的整个基因组的结构注释和校正非常好,但是工作量很大。除了每年研究某种物种外,即使有一个物种,也可能无法完成足够的资源。
物种感兴趣的基因组或基因家族的结构注释校正通常适用于普通湿湿实验中的一般基因组主题,基因家族分析主题和特定基因功能研究主题。
对于前者而言,实施者通常具有足够的计算资源来执行大规模阅读和答复;但是对于后者来说,情况通常不是这样。在许多情况下,我们可能只有一台具有4G(8G)内存的笔记本电脑和计算机的硬盘资源。也不是很丰富。但是,我们专注于几个基因,因此如何对这些基因进行足够的注释和校正?如何使用测序数据?
因此,我犹豫了很长时间,最近可能有一个项目申请。几位老师一起讨论了这一点,并简单地将其写出来供所有人使用(PS:如果您遇到此插件的任何问题,请不要问我。我很忙,只需去技能讨价还价小组)。命名。
功能简要介绍
它可以正常使用(测试)和MacOS(没有钱购买设备,未进行测试)。该函数很简单,可以根据用户提供的基因组序列和目标基因组间隔(通常是某些基因所在的染色体间隔)来回复它。已经进行了一些逻辑优化,因此总体性能类似于全基因组的答复。
可以看出,上方和下方有两个曲目(结果是整个基因组的结果,如下参考输入),覆盖范围仅为1读(这是IGV窗口量表的问题,对于基因结构注释。校正根本不会影响),这表明没有非特异性答复。总体效果很好。专门扩大此范围
由于局限性,当前间隔之外的部分没有读取段。那么有什么好处:
使用超低记忆,拟南芥,需要使用少于5m的内存的130+ mybs的间隔(请注意它是内存);如果是针对某些超大基因组,例如辣椒3G,那么实际的编码序列很少,那么它可以在笔记本上完成。
速度更快!由于回复间隔是有限的,所以速度很快。拟南芥,30m(大约20克测序数据文件),运行后只能大约5分钟。如果是整个基因组,则在相同的构型下,将需要一个多小时才能运行,更不用说大基因组了。
https://img1.baidu.com/it/u=3346576671,2522273178&fm=253&fmt=JPEG&app=138&f=PNG?w=500&h=516
这真的很准确。当我想到它时,我感到很兴奋。但是,在设计了很长时间之后,我发现一个大个子在2020年在他的软件更新上写了一个类似的想法。...尽管特定的实现和最终目的仍然存在许多差异,尽管相似。
回到主题...
安装插件
只需直接从插件商店获取。
单击安装以跳到牛快速传输,请注意!其中一个文件夹是插件文件,另一个压缩软件包是示例数据。如果示例数据不可用,则无需下载它。
插件文件已下载,只需从主界面 - >- >安装它 - (当前打开,我不确定将来是否会有太多的用户问题,所以我根本不会打开它)
至于使用
打开插件并按照接口文本提示。
输出文件的格式为SAM格式(请注意,由于完成了,该文件也很小,硬盘尺寸的要求也已较低),几乎每个人都可以做到这一点〜
实际示例
按照接口提示,只需设置参数并自己调整线程数即可。最好自己创建输出目录之一。
支持批处理输入,例如使用10个样本(总计20个文件)进行测序数据,可以一次删除。速度仍然相对较快。
请注意,输入是.ged,信息如下
https://img2.baidu.com/it/u=744299019,3687682442&fm=253&fmt=JPEG&app=120&f=JPEG?w=500&h=707
实际上,它是每个基因的染色体位置,因为假设的目标是纠正这些基因结构的注释信息。或者,专门检查一下。当然,如果您想查看是否在其他间隔中以不同的样本表达它,则您有数十个测序数据,并希望查看某个间隔是否具有最高的测序深度,其中一组数据集。逻辑上,您也可以尝试。至于其他用途,如果您有兴趣,可以尝试一下。
等待几分钟(有关详细信息,请参阅CPU和硬盘驱动器IO,对不起,我发现我的新计算机只花了2分钟,并且感到震惊),您可以在输出目录中看到输出文件。
对于此文件,您可以直接对GUI插件进行排序(该插件也可以在插件商店中下载并支持批处理操作)。
排序结束了,您可以看到输出文件
使用两个文件,您可以直接使用IGV可视化它们。
收缩后
对于超级方便的多基因快速校正,您也可以直接进口床
最后写
这条路漫长而艰巨〜后来,我仔细考虑了它,每个软件和我写的每个功能似乎都与之紧密相关。最后,我仍然希望拥有更好的工具,可以帮助更多的科学研究人员进行工作,花费更少的时间和做得更好。
我们制作工具。
页:
[1]