为了账号安全,请及时绑定邮箱和手机立即绑定

用数据库处理大量纯文本

用数据库处理大量纯文本

喵喵时光机 2019-04-21 20:20:40
我本职是研究结构生物学的,经常需要写脚本程序来处理大量纯文本,对于同一个蛋白质,有很多种格式的数据,比如:pdb格式ATOM1NMET144.017-3.1949.239ATOM2CAMET143.506-1.8299.263ATOM3CMET142.074-1.8399.749ATOM4OMET141.422-2.8489.638ATOM5CBMET143.723-1.2157.865fasta格式>./3odiA165MVNPTVFFDIAVDGEPLGRVSFELFADKVPKTAENFRALSTGEKGFGYKGSCFHRIIPGFMCQGGDFTRHNGTGGKSIYGEKFEDENFILKHTGPGILSMANAGPNTNGSQFFICTAKTEWLDGKHVVFGKVKEGMNIVEAMERFGSRNGKTSKKITIADCGQLE我通常通过后缀名来分辨,比如3odiA.pdb和3odiA.fasta.但bash或者python脚本写起来需要考虑文件路径,十分繁琐.我想数据库应该可以很好地解决我的问题,比如用3odiA作key,文本中的strings作value,但是要具体实现起来确实没什么经验(非cs出身).各位可否给一些建议?比如,用什么数据库?有什么类似的解决方案可供参考的?
查看完整描述

2 回答

?
慕容森

TA贡献1853条经验 获得超18个赞

据我所知,生物学都是perl党,perl虽然有点晦涩,但确实是玩纯文本最溜的语言
不如说至今通行的正则还叫pcre=兼容perl的正则表达式
                            
查看完整回答
反对 回复 2019-04-21
  • 2 回答
  • 0 关注
  • 254 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号