首页手记 python3+tesseract获取美股PEG图像上的数据

python3+tesseract获取美股PEG图像上的数据

标签：

Python

1. 缘起

投资了一点美股，总要参考个股资料的（虽然巴菲特老人家觉得分析技术资料没有用），发现一个一个查找，效率太低了。于是想起来用Python写个爬虫程序。话说，不偷懒的码农不是好的码农。发些一般股票app上没有PEG指标（参考股神彼得林奇相关资料）！但是Nasdaq官网上有。

举个栗子：阿里巴巴PEG如下

阿里巴巴PEG

PEG的值竟然是图片形式的！所以任务就是下载一堆图片，然后识别图片上文字（OCR），马上着手行动。

2. 读取文本

自选股列表：

读取文本代码：

3. 下载PEG图片

4. 裁剪图像，获取ROI区域

用到OpenCV Python版本

效果如下：

5. 分割数字

直接用tesseract识别，出现 Empty page的错误，猜想tesseract不能处理噪声或者干扰图像，

所以需要对图像进行预处理，而且要把数字图像分割出来。

用到cv2.SimpleBlobDetector_create()

效果如下：

6. 用tesseract OCR识别数字

用到下列命令

tesseract filename -psm 7 stdout digits

digits表示只识别数字

7. 最终结果如下：

启动代码

python3 mystock.py

基本上满足需求，不算完美，0.99 识别为0.55，识别率不算太高，后续加入训练数据，应该可以提升识别率。一件看似简单的事情，做到极致还是不容易的。

8. 完整代码见GitHub

https://github.com/ErikZhou/python-ocr

作者：干土
链接：https://www.jianshu.com/p/190968101619

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

千万里不及你

手记
篇

粉丝

56

获赞与收藏

240

关注作者，订阅最新文章

阅读免费教程

Python 办公自动化教程

17个小节 27505 929

Python 算法入门教程

15个小节 30236 1170

Python 进阶应用教程

38个小节 72817 1144

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空