为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用 Scanner 从特定行号开始读取文件?

如何使用 Scanner 从特定行号开始读取文件?

Go
白衣非少年 2021-12-06 19:42:48
我是 Go 的新手,我正在尝试编写一个简单的脚本来逐行读取文件。我还想在文件系统的某处保存进度(即读取的最后一行号),以便如果再次将相同的文件作为脚本的输入,它会从它停止的行开始读取文件。以下是我开始的内容。package main// Package Importsimport (    "bufio"    "flag"    "fmt"    "log"    "os")// Variable Declarationvar (    ConfigFile = flag.String("configfile", "../config.json", "Path to json configuration file."))// The main function that reads the file and parses the log entriesfunc main() {    flag.Parse()    settings := NewConfig(*ConfigFile)    inputFile, err := os.Open(settings.Source)    if err != nil {        log.Fatal(err)    }    defer inputFile.Close()    scanner := bufio.NewScanner(inputFile)    for scanner.Scan() {        fmt.Println(scanner.Text())    }    if err := scanner.Err(); err != nil {        log.Fatal(err)    }}// Saves the current progressfunc SaveProgress() {}// Get the line count from the progress to make surefunc GetCounter() {}我在扫描仪包中找不到任何处理行号的方法。我知道我可以声明一个整数 saycounter := 0并在每次读取一行时增加它counter++。但是下次我如何告诉扫描仪从特定行开始?因此,例如,如果我30下次使用相同的输入文件运行脚本时读取直到行,我如何让扫描仪从行开始读取31?更新我在这里能想到的一种解决方案是使用我上面所说的计数器并使用如下所示的 if 条件。    scanner := bufio.NewScanner(inputFile)    for scanner.Scan() {        if counter > progress {            fmt.Println(scanner.Text())        }    }我很确定这样的事情会起作用,但它仍然会遍历我们已经阅读过的行。请提出更好的方法。
查看完整描述

3 回答

?
HUX布斯

TA贡献1876条经验 获得超6个赞

如果您不想阅读而只是跳过以前阅读的行,则需要获取上次中断的位置。


不同的解决方案以函数的形式呈现,该函数获取要读取的输入和开始读取行的起始位置(字节位置),例如:


func solution(input io.ReadSeeker, start int64) error

使用了一个特殊的io.Reader输入,它也实现io.Seeker了通用接口,它允许跳过数据而不必读取它们。*os.File实现了这一点,因此您可以将 a 传递*File给这些函数。好的。在“合并”两者的界面io.Reader和io.Seeker是io.ReadSeeker。


如果你想要一个干净的开始(从文件的开头开始读取),只需通过start = 0. 如果要恢复先前的处理,请传递上次处理停止/中止的字节位置。这个位置就是pos下面函数(解)中局部变量的值。


下面的所有示例及其测试代码都可以在Go Playground上找到。


1.与 bufio.Scanner

bufio.Scanner 不保持位置,但是我们可以很容易的扩展它来保持位置(读取的字节),所以当我们下次要重新启动时,我们可以寻找到这个位置。


为了以最少的努力做到这一点,我们可以使用一个新的拆分函数,将输入拆分为标记(行)。我们可以使用Scanner.Split()来设置拆分器功能(决定标记/行边界在哪里的逻辑)。默认拆分函数是bufio.ScanLines().


我们来看看split函数的声明: bufio.SplitFunc


type SplitFunc func(data []byte, atEOF bool) (advance int, token []byte, err error)

它返回要前进的字节数:advance。正是我们需要保持文件位置。所以我们可以使用 builtin 创建一个新的 split 函数bufio.ScanLines(),所以我们甚至不必实现它的逻辑,只需使用advance返回值来维护位置:


func withScanner(input io.ReadSeeker, start int64) error {

    fmt.Println("--SCANNER, start:", start)

    if _, err := input.Seek(start, 0); err != nil {

        return err

    }

    scanner := bufio.NewScanner(input)


    pos := start

    scanLines := func(data []byte, atEOF bool) (advance int, token []byte, err error) {

        advance, token, err = bufio.ScanLines(data, atEOF)

        pos += int64(advance)

        return

    }

    scanner.Split(scanLines)


    for scanner.Scan() {

        fmt.Printf("Pos: %d, Scanned: %s\n", pos, scanner.Text())

    }

    return scanner.Err()

}

2.与 bufio.Reader

在这个解决方案中,我们使用bufio.Reader类型而不是Scanner. 如果我们将字节作为分隔符传递,bufio.Reader已经有一个ReadBytes()与“读取一行”功能非常相似的方法'\n'。


这个解决方案类似于 JimB 的,增加了处理所有有效的行终止符序列,并将它们从读取行中剥离(很少需要它们);在正则表达式中,它是\r?\n。


func withReader(input io.ReadSeeker, start int64) error {

    fmt.Println("--READER, start:", start)

    if _, err := input.Seek(start, 0); err != nil {

        return err

    }


    r := bufio.NewReader(input)

    pos := start

    for {

        data, err := r.ReadBytes('\n')

        pos += int64(len(data))

        if err == nil || err == io.EOF {

            if len(data) > 0 && data[len(data)-1] == '\n' {

                data = data[:len(data)-1]

            }

            if len(data) > 0 && data[len(data)-1] == '\r' {

                data = data[:len(data)-1]

            }

            fmt.Printf("Pos: %d, Read: %s\n", pos, data)

        }

        if err != nil {

            if err != io.EOF {

                return err

            }

            break

        }

    }

    return nil

}

注意:如果内容以空行结尾(行终止符),本方案将处理空行。如果你不想要这个,你可以简单地像这样检查它:


if len(data) != 0 {

    fmt.Printf("Pos: %d, Read: %s\n", pos, data)

} else {

    // Last line is empty, omit it

}

测试解决方案:

测试代码将简单地使用"first\r\nsecond\nthird\nfourth"包含多行不同行终止的内容。我们将使用strings.NewReader()来获取io.ReadSeeker其来源为 a 的string。


测试代码首先调用withScanner()并withReader()传递0start position: a clean start。在下一轮中,我们将传递一个起始位置,start = 14它的位置是 3. 行的位置,因此我们不会看到前 2 行已处理(打印):恢复模拟。


func main() {

    const content = "first\r\nsecond\nthird\nfourth"


    if err := withScanner(strings.NewReader(content), 0); err != nil {

        fmt.Println("Scanner error:", err)

    }

    if err := withReader(strings.NewReader(content), 0); err != nil {

        fmt.Println("Reader error:", err)

    }


    if err := withScanner(strings.NewReader(content), 14); err != nil {

        fmt.Println("Scanner error:", err)

    }

    if err := withReader(strings.NewReader(content), 14); err != nil {

        fmt.Println("Reader error:", err)

    }

}

输出:


--SCANNER, start: 0

Pos: 7, Scanned: first

Pos: 14, Scanned: second

Pos: 20, Scanned: third

Pos: 26, Scanned: fourth

--READER, start: 0

Pos: 7, Read: first

Pos: 14, Read: second

Pos: 20, Read: third

Pos: 26, Read: fourth

--SCANNER, start: 14

Pos: 20, Scanned: third

Pos: 26, Scanned: fourth

--READER, start: 14

Pos: 20, Read: third

Pos: 26, Read: fourth


查看完整回答
反对 回复 2021-12-06
?
呼唤远方

TA贡献1856条经验 获得超11个赞

而不是使用 a Scanner,使用 a bufio.Reader,特别是ReadBytesorReadString方法。通过这种方式,您可以读取每个行终止,并且仍然收到带有行结尾的完整行。


r := bufio.NewReader(inputFile)


var line []byte

fPos := 0 // or saved position


for i := 1; ; i++ {

    line, err = r.ReadBytes('\n')

    fmt.Printf("[line:%d pos:%d] %q\n", i, fPos, line)


    if err != nil {

        break

    }

    fPos += len(line)

}


if err != io.EOF {

    log.Fatal(err)

}

您可以选择任意存储文件位置和行号的组合,下次开始时,您可以使用inputFile.Seek(fPos, os.SEEK_SET)移动到上次中断的位置。


查看完整回答
反对 回复 2021-12-06
?
繁花不似锦

TA贡献1851条经验 获得超4个赞

如果您想使用 Scanner,您必须通过文件的请求,直到找到GetCounter()行尾符号。


scanner := bufio.NewScanner(inputFile)

// context line above


// skip first GetCounter() lines

for i := 0; i < GetCounter(); i++ {

    scanner.Scan()

}


// context line below

for scanner.Scan() {

    fmt.Println(scanner.Text())

}

或者,您可以在计数器中存储偏移量而不是行号,但请记住,使用 Scanner 时终止标记被剥离,对于新行,标记是\r?\n(正则表达式符号),因此不清楚是否应该将 1 或 2 添加到文本长度:


// Not clear how to store offset unless custom SplitFunc provided

inputFile.Seek(GetCounter(), 0)

scanner := bufio.NewScanner(inputFile)

因此最好使用以前的解决方案或根本不使用 Scanner。


查看完整回答
反对 回复 2021-12-06
  • 3 回答
  • 0 关注
  • 344 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信