为了账号安全,请及时绑定邮箱和手机立即绑定

我想从图像文件中抓取文本并将其存储在 excel 中

我想从图像文件中抓取文本并将其存储在 excel 中

杨魅力 2023-03-17 15:46:47
保龄球 OMRW ECON 0s 45 6 WD NB 失去 Dhoni 作为击球手对我们来说总是很困难 - Raina TABoult 4 0 3 0 925 M 2 3 1 0 Chennai Super Kings 击球手在淡季后表现出色,JETED 6 0 = 4 O 0 0 受到称赞Dhoni 在折痕处的支持 CHMorris 4 0 4 ns o9 8 1 1 对阵德里首都 AR Patel 3 o 3 1 1033 6 3 2 oo “看球,击球” - Dhoni 的决赛公式 o0 e sEoe 10 oo在 IPL 比赛的第 20 场比赛中,CSK 队长在 PR el 227 球中打出 554 分。那是他在本次锦标赛中取得的所有成绩的 13%。德里首都局(目标:20 局 180 分)谈话要点 - Dhoni babering @EEIEER -这是我想要在 excel 中使用的字符串
查看完整描述

2 回答

?
子衿沉夜

TA贡献1828条经验 获得超3个赞

根据对您想做什么的稀疏描述,我建议:

  1. 从图像中读取文本

  2. 用冒号替换所有空格 String csvContent = imgData.replaceAll(" ",";");

  3. 将文本保存到 csv 文件

  4. 用excel打开csv文件

以下示例假定您已设法检索数据,然后对这些数据进行后处理以提供 csv 格式。内容被写入一个文件,您只需双击该文件即可看到数据是否按照您的要求分成了列。

String[] data = new String[] {

    "BOWLING O M R W ECON 0s 45 6", //notice that your OCR software does not properly recognise the string here

    "TABoult 4 0 3 0 925 M 2 3",

    "JETED 6 0 = 4 O 0 0"

};


BufferedWriter writer = new BufferedWriter( new FileWriter( System.getProperty( "user.home" ) + System.getProperty( "file.separator" ) + "data.csv"  ) );


for( String record : data ) {

    writer.write( record.replaceAll( " ", ";" ) );

    writer.write( "\n" );

}

writer.close();     


就像我在上面的评论中所说的那样,您的 OCR 无法正常工作。我建议您查看 JSOUP html 解析器以获取信息并从那里继续。否则你不会对结果满意。


查看完整回答
反对 回复 2023-03-17
?
qq_遁去的一_1

TA贡献1725条经验 获得超7个赞

driver.get("https://www.espncricinfo.com/series/8048/scorecard/1178425/chennai-super-kings-vs-delhi-capitals-50th-match-indian-premier-league-2019"); WebElement element = driver.findElement(By.xpath("//article[@class='sub-module scorecard'][1]")); JavascriptExecutor js = (JavascriptExecutor) 驱动程序;js.executeScript("arguments[0].scrollIntoView(true);", element);


    File screen = ((TakesScreenshot)driver).getScreenshotAs(OutputType.FILE);

   File file = new File("C:\\Users\\user\\Desktop\\screenshot1\\screenshotOfElement2.png");

    FileHandler.copy(screen, file);

    

    ITesseract instance = new Tesseract();

    instance.setDatapath("C:\\selenium_work\\ScrapingText.PDF\\tessdata");

    String result = instance.doOCR(file);

    //System.out.println(result);

    String[] lines  = result.split("\\n");

    this one what am trying


查看完整回答
反对 回复 2023-03-17
  • 2 回答
  • 0 关注
  • 104 浏览

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号