为了账号安全,请及时绑定邮箱和手机立即绑定

如何在日语窗口操作系统中编码日语文本?

如何在日语窗口操作系统中编码日语文本?

C#
冉冉说 2021-10-24 20:33:57
我正在使用 Tesseract 来阅读日语文本。我从 OCR 收到以下文本。日付 請求書C++代码 extern "C" _declspec(dllexport) char* _cdecl Test(char* imagePath)    {        char *outText;        tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();        // Initialize tesseract-ocr with English, without specifying tessdata path        if (api->Init("D:\\tessdata", "jpn", tesseract::OcrEngineMode::OEM_TESSERACT_ONLY))        {            fprintf(stderr, "Could not initialize tesseract.\n");                   }        api->SetPageSegMode(tesseract::PageSegMode::PSM_AUTO);              outText = api->GetUTF8Text();        return outText;    }C#[DllImport(DllName, CallingConvention = CallingConvention.Cdecl)]        public static extern string Test(string imagePath);        void Tessrect()        {            string result = Test("D:\\japan4.png");            byte[] bytes = System.Text.Encoding.Default.GetBytes(result);            MessageBox.Show(System.Text.Encoding.UTF8.GetString(bytes));        }输入文件:、上面的代码在窗口英语中工作正常。但它在窗口日语中不起作用。它在 windows 的 Japanes 操作系统中给出了错误的输出。任何人都可以指导我如何正确使用 Japanes Window 吗?
查看完整描述

3 回答

?
万千封印

TA贡献1891条经验 获得超3个赞

您必须首先从 imagePath 制作一个图像对象。


就我而言,这是通过使用著名的 opencv 来完成的。然后,使用 SetImage 功能。


void detectJpn(cv::Mat& img)

{

    char *outText;


    // Create Tesseract object

    tesseract::TessBaseAPI *ocr = new tesseract::TessBaseAPI();


    ocr->Init(NULL, "jpn", tesseract::OEM_TESSERACT_ONLY);


    // Set Page segmentation mode to PSM_AUTO (3)

    ocr->SetPageSegMode(tesseract::PSM_AUTO);


    ocr->SetImage((uchar*)img.data, img.size().width, img.size().height, img.channels(), img.step1());


    // Run Tesseract OCR on image

    outText = ocr->GetUTF8Text();


    // print recognized text

    std::cout << outText << std::endl; // Destroy used object and release memory ocr->End();


    //ocr->Clear();

    //ocr->End();


    delete ocr;

    ocr = nullptr;

}



int main(int argc, char *argv[])

{

    cv::Mat img = imread(argv[1], cv::IMREAD_UNCHANGED);


    detectJpn(img);     


    return 0;

}

//img1.sycdn.imooc.com//617552fe00013ff607250058.jpg

查看完整回答
反对 回复 2021-10-24
?
皈依舞

TA贡献1851条经验 获得超3个赞

您正在向非 UTF-8 的窗口发送 UTF-8 文本。您需要在显示之前进行转换

这是可能导致问题的代码(因为它尝试使用您无法控制的默认系统编码);byte[] bytes = System.Text.Encoding.Default.GetBytes(result);

您是否尝试在那里使用 Encoding.UTF8 ?

如果单独这样做不起作用,请尝试在下面的行中将 Encoding.UTF8 更改为 Encoding.Default。



查看完整回答
反对 回复 2021-10-24
  • 3 回答
  • 0 关注
  • 189 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信