3 回答
TA贡献1876条经验 获得超6个赞
如果您不想阅读而只是跳过以前阅读的行,则需要获取上次中断的位置。
不同的解决方案以函数的形式呈现,该函数获取要读取的输入和开始读取行的起始位置(字节位置),例如:
func solution(input io.ReadSeeker, start int64) error
使用了一个特殊的io.Reader输入,它也实现io.Seeker了通用接口,它允许跳过数据而不必读取它们。*os.File实现了这一点,因此您可以将 a 传递*File给这些函数。好的。在“合并”两者的界面io.Reader和io.Seeker是io.ReadSeeker。
如果你想要一个干净的开始(从文件的开头开始读取),只需通过start = 0. 如果要恢复先前的处理,请传递上次处理停止/中止的字节位置。这个位置就是pos下面函数(解)中局部变量的值。
下面的所有示例及其测试代码都可以在Go Playground上找到。
1.与 bufio.Scanner
bufio.Scanner 不保持位置,但是我们可以很容易的扩展它来保持位置(读取的字节),所以当我们下次要重新启动时,我们可以寻找到这个位置。
为了以最少的努力做到这一点,我们可以使用一个新的拆分函数,将输入拆分为标记(行)。我们可以使用Scanner.Split()来设置拆分器功能(决定标记/行边界在哪里的逻辑)。默认拆分函数是bufio.ScanLines().
我们来看看split函数的声明: bufio.SplitFunc
type SplitFunc func(data []byte, atEOF bool) (advance int, token []byte, err error)
它返回要前进的字节数:advance。正是我们需要保持文件位置。所以我们可以使用 builtin 创建一个新的 split 函数bufio.ScanLines(),所以我们甚至不必实现它的逻辑,只需使用advance返回值来维护位置:
func withScanner(input io.ReadSeeker, start int64) error {
fmt.Println("--SCANNER, start:", start)
if _, err := input.Seek(start, 0); err != nil {
return err
}
scanner := bufio.NewScanner(input)
pos := start
scanLines := func(data []byte, atEOF bool) (advance int, token []byte, err error) {
advance, token, err = bufio.ScanLines(data, atEOF)
pos += int64(advance)
return
}
scanner.Split(scanLines)
for scanner.Scan() {
fmt.Printf("Pos: %d, Scanned: %s\n", pos, scanner.Text())
}
return scanner.Err()
}
2.与 bufio.Reader
在这个解决方案中,我们使用bufio.Reader类型而不是Scanner. 如果我们将字节作为分隔符传递,bufio.Reader已经有一个ReadBytes()与“读取一行”功能非常相似的方法'\n'。
这个解决方案类似于 JimB 的,增加了处理所有有效的行终止符序列,并将它们从读取行中剥离(很少需要它们);在正则表达式中,它是\r?\n。
func withReader(input io.ReadSeeker, start int64) error {
fmt.Println("--READER, start:", start)
if _, err := input.Seek(start, 0); err != nil {
return err
}
r := bufio.NewReader(input)
pos := start
for {
data, err := r.ReadBytes('\n')
pos += int64(len(data))
if err == nil || err == io.EOF {
if len(data) > 0 && data[len(data)-1] == '\n' {
data = data[:len(data)-1]
}
if len(data) > 0 && data[len(data)-1] == '\r' {
data = data[:len(data)-1]
}
fmt.Printf("Pos: %d, Read: %s\n", pos, data)
}
if err != nil {
if err != io.EOF {
return err
}
break
}
}
return nil
}
注意:如果内容以空行结尾(行终止符),本方案将处理空行。如果你不想要这个,你可以简单地像这样检查它:
if len(data) != 0 {
fmt.Printf("Pos: %d, Read: %s\n", pos, data)
} else {
// Last line is empty, omit it
}
测试解决方案:
测试代码将简单地使用"first\r\nsecond\nthird\nfourth"包含多行不同行终止的内容。我们将使用strings.NewReader()来获取io.ReadSeeker其来源为 a 的string。
测试代码首先调用withScanner()并withReader()传递0start position: a clean start。在下一轮中,我们将传递一个起始位置,start = 14它的位置是 3. 行的位置,因此我们不会看到前 2 行已处理(打印):恢复模拟。
func main() {
const content = "first\r\nsecond\nthird\nfourth"
if err := withScanner(strings.NewReader(content), 0); err != nil {
fmt.Println("Scanner error:", err)
}
if err := withReader(strings.NewReader(content), 0); err != nil {
fmt.Println("Reader error:", err)
}
if err := withScanner(strings.NewReader(content), 14); err != nil {
fmt.Println("Scanner error:", err)
}
if err := withReader(strings.NewReader(content), 14); err != nil {
fmt.Println("Reader error:", err)
}
}
输出:
--SCANNER, start: 0
Pos: 7, Scanned: first
Pos: 14, Scanned: second
Pos: 20, Scanned: third
Pos: 26, Scanned: fourth
--READER, start: 0
Pos: 7, Read: first
Pos: 14, Read: second
Pos: 20, Read: third
Pos: 26, Read: fourth
--SCANNER, start: 14
Pos: 20, Scanned: third
Pos: 26, Scanned: fourth
--READER, start: 14
Pos: 20, Read: third
Pos: 26, Read: fourth
TA贡献1856条经验 获得超11个赞
而不是使用 a Scanner,使用 a bufio.Reader,特别是ReadBytesorReadString方法。通过这种方式,您可以读取每个行终止,并且仍然收到带有行结尾的完整行。
r := bufio.NewReader(inputFile)
var line []byte
fPos := 0 // or saved position
for i := 1; ; i++ {
line, err = r.ReadBytes('\n')
fmt.Printf("[line:%d pos:%d] %q\n", i, fPos, line)
if err != nil {
break
}
fPos += len(line)
}
if err != io.EOF {
log.Fatal(err)
}
您可以选择任意存储文件位置和行号的组合,下次开始时,您可以使用inputFile.Seek(fPos, os.SEEK_SET)移动到上次中断的位置。
TA贡献1851条经验 获得超4个赞
如果您想使用 Scanner,您必须通过文件的请求,直到找到GetCounter()行尾符号。
scanner := bufio.NewScanner(inputFile)
// context line above
// skip first GetCounter() lines
for i := 0; i < GetCounter(); i++ {
scanner.Scan()
}
// context line below
for scanner.Scan() {
fmt.Println(scanner.Text())
}
或者,您可以在计数器中存储偏移量而不是行号,但请记住,使用 Scanner 时终止标记被剥离,对于新行,标记是\r?\n(正则表达式符号),因此不清楚是否应该将 1 或 2 添加到文本长度:
// Not clear how to store offset unless custom SplitFunc provided
inputFile.Seek(GetCounter(), 0)
scanner := bufio.NewScanner(inputFile)
因此最好使用以前的解决方案或根本不使用 Scanner。
- 3 回答
- 0 关注
- 344 浏览
添加回答
举报