为了账号安全,请及时绑定邮箱和手机立即绑定

用数据库处理大量纯文本

用数据库处理大量纯文本

MM们 2019-04-19 16:11:56
我本职是研究结构生物学的,经常需要写脚本程序来处理大量纯文本,对于同一个蛋白质,有很多种格式的数据,比如:pdb格式ATOM1NMET144.017-3.1949.239ATOM2CAMET143.506-1.8299.263ATOM3CMET142.074-1.8399.749ATOM4OMET141.422-2.8489.638ATOM5CBMET143.723-1.2157.865fasta格式>./3odiA165MVNPTVFFDIAVDGEPLGRVSFELFADKVPKTAENFRALSTGEKGFGYKGSCFHRIIPGFMCQGGDFTRHNGTGGKSIYGEKFEDENFILKHTGPGILSMANAGPNTNGSQFFICTAKTEWLDGKHVVFGKVKEGMNIVEAMERFGSRNGKTSKKITIADCGQLE我通常通过后缀名来分辨,比如3odiA.pdb和3odiA.fasta.但bash或者python脚本写起来需要考虑文件路径,十分繁琐.我想数据库应该可以很好地解决我的问题,比如用3odiA作key,文本中的strings作value,但是要具体实现起来确实没什么经验(非cs出身).各位可否给一些建议?比如,用什么数据库?有什么类似的解决方案可供参考的?
查看完整描述

2 回答

?
ABOUTYOU

TA贡献1812条经验 获得超5个赞

据我所知,生物学都是perl党,perl虽然有点晦涩,但确实是玩纯文本最溜的语言
不如说至今通行的正则还叫pcre=兼容perl的正则表达式
                            
查看完整回答
反对 回复 2019-04-19
  • 2 回答
  • 0 关注
  • 436 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信