为了账号安全,请及时绑定邮箱和手机立即绑定

使用 Java 将字符串操作为 XML

使用 Java 将字符串操作为 XML

ITMISS 2023-03-31 09:25:37
我从 PDF 中提取了如下字符串格式的数据。(请注意不均匀的间距和换行符)。 Virtual Salary                                 25,100.00   EIS EE Contr.                                       7.90 Virtual Car Allowance                           1,600.00   EPF Employee Contr.                             2,937.00 Payment Received(Oversea)                       4,265.01   SOCSO Employee Contr.                              19.75如何将此字符串转换为 XML,如下所示。public void testMethod()    {        String extractedTestFromPDF=                 " Virtual Salary                                 25,100.00   EIS EE Contr.                                       7.90\n"+                 "\t Virtual Car Allowance                           1,600.00   EPF Employee Contr.                             2,937.00\n"+                 " Payment Received(Oversea)                       4,265.01   SOCSO Employee Contr.                              19.75\n";    }期望 XML:<xml><Data>    <Allowance>Virtual Salary</Allowance>    <Allowance_Amount>25,100.00</Allowance_Amount></Data><Data>    <Allowance>EIS EE Contr.</Allowance>    <Allowance_Amount>7.90</Allowance_Amount></Data><Data>    <Allowance>Virtual Car Allowance</Allowance>    <Allowance_Amount>1,600.00</Allowance_Amount></Data>...</xml>
查看完整描述

1 回答

?
湖上湖

TA贡献2003条经验 获得超2个赞

String fixedSizetoXML(String extractedTestFromPDF) {

    String[] lines = extractedTestFromPDF.split("\\R");

    Pattern pattern = Pattern.compile("^\\s*(\\S.{20})\\s\\s+([-\\d,\\.]+)\\s+.*$");

    //                                      (--------)       (-----------)

    return "<?xml verion="1.0">\n<Xml>\n"

        + Stream.of(lines)

              .map(pattern::matcher)

              .filter(m::find)

              .map(m -> String.format("<Data>\n"

                            + "    <Allowance>%s</Allowance>\n"

                            + "    <Allowance_Amount>%s</Allowance_Amount>\n"

                            + "</Data>\n",

                            m.group(1).trim(), m.group(2)))


              .collect(Collectors.joining(""))

        + "<Xml>\n";

}

我冒昧地添加了一条 XML 预处理指令<?xml ...>,并为清楚起见更改xml为Xml.


这些是具有固定长度字段的记录。计算位置并不完全安全,看到制表符\t并考虑特殊字符:é可能是一个字符,但也e加上一个特殊的零宽度´,我改用正则表达式模式。数量前至少需要两个空白字符。


Java 7


String fixedSizetoXML(String extractedTestFromPDF) {

    String[] lines = extractedTestFromPDF.split("\\R");

    Pattern pattern = Pattern.compile("^\\s*(\\S.{20})\\s\\s+([-\\d,\\.]+)\\s+.*$");

    //                                      (--------)       (-----------)

    StringBuilder sb = new StringBuilder(lines.length * 64);

    sb.append("<?xml verion="1.0">\n<Xml>\n");

    for (String line : lines) {

        Matcher m = pattern.matcher(line);

        if (m.find()) {

            String data = String.format("<Data>\n"

                            + "    <Allowance>%s</Allowance>\n"

                            + "    <Allowance_Amount>%s</Allowance_Amount>\n"

                            + "</Data>\n",

                            m.group(1).trim(), m.group(2));

            sb.append(data);

        }

    }

    sb.append("<Xml>\n");

    return sb.toString();

}


查看完整回答
反对 回复 2023-03-31
  • 1 回答
  • 0 关注
  • 197 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信