为了账号安全,请及时绑定邮箱和手机立即绑定

词干:使用 Python 中的正则表达式模块删除/更改 URL

词干:使用 Python 中的正则表达式模块删除/更改 URL

慕哥6287543 2021-09-01 14:47:31
您好,我正在尝试使用 Python 进行词干分析,我想使用 Regex 模块删除或更改 URL (https/http)。我已经写了一些代码行,但它似乎只适用于标点符号而不适用于表情符号和 URL,有人请帮助我吗?这是我的代码 def tokenWordbase(verse):    return verse.split(' ')#URLsdef url(link):    link = re.sub(r'^https?:\/\/.*[\r\n]*', '', link, flags=re.MULTILINE)#punctuationdef punctuation(tokens):    tokens = re.sub(r'[>)}:{",?+ !.(<;1234567890]','',str(tokens))    tokens = re.sub('\n','',str(tokens))    return tokens#emotdef emoticons(emot):    emot = re.sub( ':-)', ':)', '(:', '(-:', ':-D', ':D', 'X-D', 'XD', 'xD', ';-)', ';)', ';-D', ';D', '(;', '(-;', ':-(', ':(', '(:', '(-:', ':,(', ':\'(', ':"(', ':((', str(tokens))    return emotdef main():    currentString = []    panjangTang = []    with open('Book2.csv') as f:        reader = csv.reader(f, delimiter=',')        for row in reader:            if row[0] == '' or row[0] == '-':                continue            else:                tokennya = tokenWordbase(row[0])                panjangTangSementara = []                for j in range(len(tokennya)):                    # print(childToken)                    puntu = punctuation(tokennya[j])                    stopnya = stopword.remove(puntu)                    if stopnya == '':                        continue                    else:                        stemmnya = stemmer.stem(stopnya)                        currentString.append(stemmnya)                        panjangTangSementara.append(stemmnya)                panjangTang.append(panjangTangSementara)    daftarDokumen = Counter(currentString)    daftarString = []
查看完整描述

2 回答

?
慕斯王

TA贡献1864条经验 获得超2个赞

domain_registers = [".com",".net",".info",".biz","mobi",".xxx",".asia",".eu",".name",".us ",".co",".org",".me",".mx",".in",".ac",".asp",".php",".html"]

def url(link): if ('.' in link and '/' in link) or 'www.' in link 或 'http' in link 或 any([word in link for word in domain_registers]):返回“”


查看完整回答
反对 回复 2021-09-01
?
慕妹3146593

TA贡献1820条经验 获得超9个赞

url函数没有返回修改后的字符串,尝试添加return link到它的末尾。


查看完整回答
反对 回复 2021-09-01
  • 2 回答
  • 0 关注
  • 293 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号