首页手记机器阅读理解中你需要知道的几个经典数据集

机器阅读理解中你需要知道的几个经典数据集

标签：

人工智能

一、2013，MCTest

论文：《MCTest：A Challenge Dataset for the Open-Domain Machine Comprehension of Test》

数据以json格式给出。小规模，大部分在这个数据集上的研究都是基于特征工程的工作。

下载链接：http://www.msmarco.org/dataset.aspx

二、2015，CNN&Dailymail

论文：《Teaching Machines to Read and Comprehend》

填空型大规模英文机器理解数据集，答案是原文中的某一个词。

CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。

Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。

下载链接：https://github.com/deepmind/rc-data

三、2016，SQuAD

论文：《SQuAD:100000+ Question for Machine Comprehension of Test》

机器理解领域的ImageNet，数据来源于对维基百科文章的问题的整理，在500多篇文章中有超过100000个问题答案对，答案不是原文的一个词，而是原文的一个连续文本片段。数据以json格式给出，只给出了训练集以及验证集，如果要获取在测试集上的效果，需要上传模型，官方会把你的模型在测试集上跑，得出结果后再反馈给你。

下载链接：https://rajpurkar.github.io/SQuAD-explorer/

四、2017，RACE

论文：《RACE：Large-scale Reading Comprehension Dataset From Examinations》

数据集为中国中学生英语阅读理解题目，给定一篇文章和 5 道 4 选 1 的题目，包括了 28000+ passages 和 100,000 问题。与MCTest同为选择题形式的机器阅读数据集，但规模比MCTest大，且相对CNN&Dailymail和SQuAD，RACE更注重推理能力。

数据以txt格式给出，数据集的high文件夹下有20794篇文章，每篇文章有4个问题；middle文件夹下有7139篇文章，每篇文章有5个问题。

训练集的high文件夹下有18728篇文章，占比90%，middle文件夹下有6409篇文章，占比90%；

验证集的high文件夹下有1021篇文章，占比5%，middle文件夹下有368篇文章，占比5%；

测试集的high文件夹下有1045篇文章，占比5%，middle文件夹下有362篇文章，占比5%。

需要发送email，官方会给你的邮箱发下载链接，申请地址：http://www.cs.cmu.edu/~glai1/data/race/

样本数据展示：

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

损失函数

算法工程师

手记
篇

粉丝

1532

获赞与收藏

2735

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 32888 371

网络编程入门教程

20个小节 13641 256

Pandas 入门教程

25个小节 20282 387

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

机器阅读理解中你需要知道的几个经典数据集

阅读免费教程