GitHub - zrqzop/Annotation-and-analysis-tools

本人在科研中自己写的一些辅助分析的代码，适用于昆虫线粒体基因组分析

序列搜索.py

程序运行时会读取doc.txt文件，该文件的内容为fasta格式的待注释线粒体基因组全长序列，请将该文件与序列搜索.py放置在同一级目录中。运行成功后会输出以下内容：

输入序列：
AATGAGATGCC......ACCACACTTC
长度：16463
--------------------------------------------------
简并碱基：[]
--------------------------------------------------
输入基因名称：

依次输入基因名称，基因在双链中的位置（正链还是负链），起始片段，末尾片段:

输入基因名称：ND2
序列方向（用英文+、-表示）：+
请输入开始序列片段：ATTTTATTAAATCCGTCGCGACTTTT
请输入末尾序列片段：TTCTGTTTGTAATTCTTT

运行结束后输出结果：

>ND2_252:1269_1018_+_ATT_T
ATTTTATTAAATCCGTCGCGACTTTTATTTTTAATTACCCTTATTTTAGGAACTTTATTTTCAATCTCTGCTTCATCTTGATTTGGAGCTTGAGCAGGTT
TAGAAATTAATTTACTTTCTTTTATCCCACTTATATCCCAAAATAATAAATTTTCTGCTGAAGCCGCTTTAAAATATTTTCTAGTACAAGCCCTTGCCTC
TTCTATTTTATTATTCGCAGTTCTAATATTGTATTCTTTACATTCTATATTAATTTCTTTGGATTCTATTATTGACCCTAGATTAATTCTAAACACAGCC
TTATTAATTAAATTAGGAGGAGCACCATTCCATTTCTGATTCCCAGGAGTAATGGAAGGACTTAATTGGTCTTGTAATATTATTTTAATAACTTGACAAA
AGATGGCTCCTATAATACTATTATCCTACACTATTTATTTAAATACATTTTATACTTTTGTAATTATTTCTTCAGTTATAGCTGGATCGTTAGGAGGTTT
TAACCAAACCTCACTACGTAAAATCATAGCTTATTCTTCTATTAATCACTTAGGGTGGATGGTAGCTTCTATTATTTTAGGAGATTTATTTTGGTTTATA
TATTTCCTATTTTATTCCTTTCTTTCTATCACTACTATTATTTTATTTAGTCAATTTAATTTAACTCATTTATACCAAATTTATTCTTCCTCATTTCATT
CGCCTGCCATTAAACTTATAATATTTTTAAATATATTATCATTAGGAGGATTACCTCCATTCCTAGGATTTCTCCCGAAATGAATTATTATTAATGGTTT
AGTTATAAGAAATAATTACTTTACAATTACTGTTATAGTAATTATAACCTTAGTAACTTTATTTTTCTATCTGCGACTAACATTTTCAGCTTTACTTTTA
ACCCATAGTGAACCAAAATGATTAAATCCTTCTACAACACTTTCTCCACTACTATTAATTTTAGTGACCTTATCTATTTTAGGATTATTATTAAGCCCTC
TTCTGTTTGTAATTCTTT
起始密码子是否正确：True
终止密码子是否正确：True
简并碱基:[]

PCG表格生成.py

程序运行时会读取doc.txt文件，内容为整理好的线粒体基因组中的13个蛋白质编码基因，快速生成统计表。 doc.txt的示例内容如下：

>ND2_252:1269_1018_+_ATT_T
ATTTTATTAAATCCGTCGCGACTTTTATTTTTAATTACCCTTATTTTAGGAACTTTATTTTCAATCTCTGCTTCATCTTGATTTGGAGCTTGAGCAGGTT
TAGAAATTAATTTACTTTCTTTTATCCCACTTATATCCCAAAATAATAAATTTTCTGCTGAAGCCGCTTTAAAATATTTTCTAGTACAAGCCCTTGCCTC
TTCTATTTTATTATTCGCAGTTCTAATATTGTATTCTTTACATTCTATATTAATTTCTTTGGATTCTATTATTGACCCTAGATTAATTCTAAACACAGCC
TTATTAATTAAATTAGGAGGAGCACCATTCCATTTCTGATTCCCAGGAGTAATGGAAGGACTTAATTGGTCTTGTAATATTATTTTAATAACTTGACAAA
AGATGGCTCCTATAATACTATTATCCTACACTATTTATTTAAATACATTTTATACTTTTGTAATTATTTCTTCAGTTATAGCTGGATCGTTAGGAGGTTT
TAACCAAACCTCACTACGTAAAATCATAGCTTATTCTTCTATTAATCACTTAGGGTGGATGGTAGCTTCTATTATTTTAGGAGATTTATTTTGGTTTATA
TATTTCCTATTTTATTCCTTTCTTTCTATCACTACTATTATTTTATTTAGTCAATTTAATTTAACTCATTTATACCAAATTTATTCTTCCTCATTTCATT
CGCCTGCCATTAAACTTATAATATTTTTAAATATATTATCATTAGGAGGATTACCTCCATTCCTAGGATTTCTCCCGAAATGAATTATTATTAATGGTTT
AGTTATAAGAAATAATTACTTTACAATTACTGTTATAGTAATTATAACCTTAGTAACTTTATTTTTCTATCTGCGACTAACATTTTCAGCTTTACTTTTA
ACCCATAGTGAACCAAAATGATTAAATCCTTCTACAACACTTTCTCCACTACTATTAATTTTAGTGACCTTATCTATTTTAGGATTATTATTAAGCCCTC
TTCTGTTTGTAATTCTTT

输出结果：

基因	方向	起始位置	终止位置	大小	起始密码子	终止密码子
ND2	+	252	1269	1018	ATT	T

将结果复制粘贴到Excel中即可

序列获取(按位置截取).py

程序运行时会读取doc.txt文件，该文件的内容为fasta格式的待注释线粒体基因组全长序列。输入某序列片段的起始位置和终止位置，输出该片段序列。

核苷酸组分.py

程序运行时会读取doc.txt文件，该文件的内容为fasta格式的序列文件。统计一条序列的长度，碱基组分，AT-skew和GC-skew。若doc.txt文件中包含多条序列，则会统计多序列串联后的结果。

去除终止密码子.py

程序运行时会读取example.fasta文件，该文件的内容为fasta格式的序列文件。删除蛋白质编码序列中的终止密码子，支持多序列。

RSCU计算.py

读取example.fasta文件，该文件的内容为去除终止密码子后的13个蛋白质编码基因。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

序列搜索.py

PCG表格生成.py

序列获取(按位置截取).py

核苷酸组分.py

去除终止密码子.py

RSCU计算.py

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
PCG表格生成.py		PCG表格生成.py
README.md		README.md
RSCU计算.py		RSCU计算.py
doc.txt		doc.txt
example.fasta		example.fasta
从GenBank文件中提取信息.py		从GenBank文件中提取信息.py
去除终止密码子.py		去除终止密码子.py
序列获取(按位置截取).py		序列获取(按位置截取).py
序列获取.py		序列获取.py
核苷酸组分.py		核苷酸组分.py

zrqzop/Annotation-and-analysis-tools

Folders and files

Latest commit

History

Repository files navigation

序列搜索.py

PCG表格生成.py

序列获取(按位置截取).py

核苷酸组分.py

去除终止密码子.py

RSCU计算.py

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages