为了账号安全,请及时绑定邮箱和手机立即绑定

one-shot 的标准数据集——Omniglot

标签:
Python

数据集简介

Omniglot 一般会被戏称为 MNIST 的转置,大家可以想想为什么?下面对 Omniglot 数据集进行简要介绍:

Omniglot 数据集包含来自 5050 个不同字母的 16231623 个不同手写字符。每一个字符都是由 2020 个不同的人通过亚马逊的 Mechanical Turk 在线绘制的。

每个图像都与笔画数据配对, 坐标序列为 [x,y,t][x, y, t], 且时间 (t)(t) 以毫秒为单位。笔画数据仅在 matlab/ 文件中可用。

Omniglot 数据集总共包含 5050 个字母。我们通常将这些分成一组包含 3030 个字母的背景(background)集和一组包含 2020 个字母的评估(evaluation)集。

更具挑战性的表示学习任务是使用较小的背景集 “background small 1” 和 “background small 2”。每一个都只包含 55 个字母, 更类似于一个成年人在学习一般的字符时可能遇到的经验。

为了更加直观的感受 Omniglot 的组成,我借助 brendenlake/omniglot 的源码,对该数据集进行了剖析,并以 .ipynb 的文件格式进行展示。数据集具体形式可见 omniglot/python 。查看 数据使用说明 无需解压便可直接获取数据集的相关信息。如果你更喜欢命令行的形式,可以查看 dataloader

更进一步,如果你想要使用 Modified Hausdorff 距离测试 one-shot 在原论文 的效果如何,你可以查看 one-shot-classification

更甚者,如果你仅仅是想要在线查看该数据集,而不想将其下载下来。你可以在 https://mybinder.org/上在线对该数据集进行一些你想要的操作,包括跑程序。具体的做法是:

  1. 点击 Omniglot 进入在线编辑模式;
  2. 数据集见 omniglot/ 目录;数据使用说明.ipynb 文件可以用来操作 Omniglot 数据集;
  3. 测试 one-shot 的数据集见 omniglot/python/one-shot-classification 目录。文件 test_demo.ipynb 可以做一些测试工作。

为了保证,在线正常运行,你需要在第一次运行前加载必要的模块:

图片描述

点击查看更多内容
1人点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消