为了账号安全,请及时绑定邮箱和手机立即绑定

用Python(或者其他语言)怎么把如下文件中的中文词条提取出来,并把这些中文做成json文件?

用Python(或者其他语言)怎么把如下文件中的中文词条提取出来,并把这些中文做成json文件?

慕莱坞森 2019-01-19 05:46:03
------------------------------------------------------------------------------- File:D:\svn\aCenter\windows\dap\store\vdidc\web\vue-ui\src\components\datetime_range.vue content: 'default': '至' Line: 24 Time: 2018-03-26 08:46:13 ------------------------------------------------------------------------------- File:D:\svn\aCenter\windows\dap\store\vdidc\web\vue-ui\src\components\piece.vue content: <div><span class="branch-num">{{checkBranchNum}}</span><lang>个</lang>< Line: 6 Time: 2018-03-26 08:46:13 ------------------------------------------------------------------------------- File:D:\svn\aCenter\windows\dap\store\vdidc\web\vue-ui\src\components\piece.vue content: <div class="branch"><lang>分支</lang></div> Line: 7 Time: 2018-03-26 0 ........ 比如文本中的,“至”,“个”,“分支”,做成json:{ “至”:“至”, “个”:“个”, “分支”:“分支” }, 各位有什么骚代码都甩出来把。。。
查看完整描述

3 回答

?
GCT1015

TA贡献1827条经验 获得超4个赞

import re

s = '''File:D:\svn\aCenter\windows\dap\store\vdidc\web\vue-ui\src\components\datetime_range.vue
content:                'default': '至'
Line: 24
Time: 2018-03-26 08:46:13

-------------------------------------------------------------------------------
File:D:\svn\aCenter\windows\dap\store\vdidc\web\vue-ui\src\components\piece.vue
content:                <div><span class="branch-num">{{checkBranchNum}}</span><lang>个</lang><
Line: 6
Time: 2018-03-26 08:46:13

-------------------------------------------------------------------------------
File:D:\svn\aCenter\windows\dap\store\vdidc\web\vue-ui\src\components\piece.vue
content:                <div class="branch"><lang>分支</lang></div>
Line: 7
Time: 2018-03-26 0'''


p2 = re.compile(r'[^\u4e00-\u9fa5]')
result = {i: i for i in " ".join(p2.split(s)).strip().split()}

# {'个': '个', '至': '至', '分支': '分支'}

优雅的写在本地,比如你的文件是1.txt

import re
p2 = re.compile(r'[^\u4e00-\u9fa5]')
with open('1.txt', 'r') as r:
    result = {i: i for i in ' '.join(p2.split(''.join(r.readlines()))).strip().split()}

print(result) # {'个': '个', '分支': '分支', '至': '至'}
查看完整回答
反对 回复 2019-03-01
?
HUWWW

TA贡献1874条经验 获得超12个赞

用规制式啊,字符编码在中文范围内的。
这个关键是提取,用go语言好像比较方便,因为其内的规制式有中文标签 go处理中文

查看完整回答
反对 回复 2019-03-01
?
狐的传说

TA贡献1804条经验 获得超3个赞

不是很推荐楼主的方案,不是很适合用中文作为键…

查看完整回答
反对 回复 2019-03-01
  • 3 回答
  • 0 关注
  • 595 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号