我有一个包含蛋白质序列的fasta文件。我想选择具有300多个氨基酸的序列,而半胱氨酸(C)氨基酸出现的次数超过4倍。我已经使用此命令来选择具有超过300 aa的序列: cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例: >jgi|Triasp1|216614|CE216613_3477 MPSLYLTSALGLLSLLPAAQAGWNPNSKDNIVVYWGQDAGSIGQNRLSYYCENAPDVDVI NISFLVGITDLNLNLANVGNNCTAFAQDPNLLDCPQVAADIVECQQTYGKTIMMSLFGST YTESGFSSSSTAVSAAQEIWAMFGPVQSGNSTPRPFGNAVIDGFDFDLEDPIENNMEPFA AELRSLTSAATSKKFYLSAAPQCVYPDASDESFLQGEVAFDWLNIQFYNNGCGTSYYPSG YNYATWDNWAKTVSANPNTKLLVGTPASVHAVNFANYFPTNDQLAGAISSSKSYDSFAGV MLWDMAQLFGNPGYLDLIVADLGGASTPPPPASTTLSTVTRSSTASTGPTSPPPSGGSVP QWGQCGGQGYTGPTQCQSPYTCVVESQWWSSCQ*
1 回答
- 1 回答
- 0 关注
- 318 浏览
添加回答
举报
0/150
提交
取消