为了账号安全,请及时绑定邮箱和手机立即绑定

在aaa大于300的fasta文件中选择序列,并且“ C”出现至少4次

在aaa大于300的fasta文件中选择序列,并且“ C”出现至少4次

慕婉清6462132 2021-04-07 17:14:02
我有一个包含蛋白质序列的fasta文件。我想选择具有300多个氨基酸的序列,而半胱氨酸(C)氨基酸出现的次数超过4倍。我已经使用此命令来选择具有超过300 aa的序列: cat 72hDOWN-fasta.fasta | bioawk -c fastx 'length($seq) > 300{ print ">"$name; print $seq }' 一些序列示例:  >jgi|Triasp1|216614|CE216613_3477 MPSLYLTSALGLLSLLPAAQAGWNPNSKDNIVVYWGQDAGSIGQNRLSYYCENAPDVDVI NISFLVGITDLNLNLANVGNNCTAFAQDPNLLDCPQVAADIVECQQTYGKTIMMSLFGST YTESGFSSSSTAVSAAQEIWAMFGPVQSGNSTPRPFGNAVIDGFDFDLEDPIENNMEPFA AELRSLTSAATSKKFYLSAAPQCVYPDASDESFLQGEVAFDWLNIQFYNNGCGTSYYPSG YNYATWDNWAKTVSANPNTKLLVGTPASVHAVNFANYFPTNDQLAGAISSSKSYDSFAGV MLWDMAQLFGNPGYLDLIVADLGGASTPPPPASTTLSTVTRSSTASTGPTSPPPSGGSVP QWGQCGGQGYTGPTQCQSPYTCVVESQWWSSCQ* 
查看完整描述

1 回答

  • 1 回答
  • 0 关注
  • 318 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信