我本职是研究结构生物学的,经常需要写脚本程序来处理大量纯文本,对于同一个蛋白质,有很多种格式的数据,比如:pdb格式ATOM1NMET144.017-3.1949.239ATOM2CAMET143.506-1.8299.263ATOM3CMET142.074-1.8399.749ATOM4OMET141.422-2.8489.638ATOM5CBMET143.723-1.2157.865fasta格式>./3odiA165MVNPTVFFDIAVDGEPLGRVSFELFADKVPKTAENFRALSTGEKGFGYKGSCFHRIIPGFMCQGGDFTRHNGTGGKSIYGEKFEDENFILKHTGPGILSMANAGPNTNGSQFFICTAKTEWLDGKHVVFGKVKEGMNIVEAMERFGSRNGKTSKKITIADCGQLE我通常通过后缀名来分辨,比如3odiA.pdb和3odiA.fasta.但bash或者python脚本写起来需要考虑文件路径,十分繁琐.我想数据库应该可以很好地解决我的问题,比如用3odiA作key,文本中的strings作value,但是要具体实现起来确实没什么经验(非cs出身).各位可否给一些建议?比如,用什么数据库?有什么类似的解决方案可供参考的?
添加回答
举报
0/150
提交
取消