1 回答

TA贡献1804条经验 获得超3个赞
您可以分别对两列进行标记,然后将它们输入到两个不同的输入层,将它们连接起来并将它们输入到 LSTM 层,对吗?如果这种方法适合您,我可以解释如何操作。
编辑:如果您习惯使用 Functional API,请生成对应于 2 列的 2 个填充序列输入,如下所示:
tokenizer.fit_on_texts(f_data['Headline'])
vocab_size = len(tokenizer.word_index) + 1
headline_sequences_train = tokenizer.texts_to_sequences(f_data['Headline'])
#headline_seq_validation = tokenizer.texts_to_sequences(val_data['Headline'])
headline_padded_train = pad_sequences(headline_sequences_train, padding='post', maxlen = MAX_SEQ_LEN)
#headline_padded_validation = pad_sequences(headline_seq_validation,padding = 'post',maxlen = MAX_SEQ_LEN)
同样对于文章正文:
tokenizer.fit_on_texts(f_data['articleBody'])
vocab_size = len(tokenizer.word_index) + 1
art_body_seq_train = tokenizer.texts_to_sequences(f_data['articleBody'])
#art_body_seq_validation = tokenizer.texts_to_sequences(val_data['articleBody'])
art_body_padded_train = pad_sequences(art_body_seq_train, padding='post', maxlen = MAX_SEQ_LEN)
#art_body_padded_validation = pad_sequences(art_body_seq_validation, padding='post', maxlen = MAX_SEQ_LEN)
注意:对于两个不同的列,MAX_SEQ_LEN 可能不同。取决于您的喜好。我建议你分别分析Headline和Article Body栏的字长,并选择不同的看起来合适的最大序列长度。
headline_padded_train并且art_body_padded_train是你的两个输入对应于你的神经网络中的两个输入层。
添加回答
举报