update Golang example

hipertracker · hipertracker · commit a0ea2ceac309 · 2022-02-06T13:42:20.000Z
diff --git a/README.md b/README.md
@@ -19,7 +19,7 @@ The following results are for 123 unique utf-8 Bible text files in 23 languages
 5. Elixir 1.13.2  = 7.82s
 6. Ruby 3.1.0     = 8.31s
 
-Golang 1.17    = UNDER REFACTORING, stay tuned
+Golang 1.17.6    = UNDER REFACTORING, stay tuned
 </pre>
 
 ### Conclusion
diff --git a/example-golang/.gitignore b/example-golang/.gitignore
@@ -0,0 +1 @@
+/coverage.out
diff --git a/example-golang/.tool-versions b/example-golang/.tool-versions
@@ -1 +1 @@
-golang 1.18beta1
+golang 1.17.6
diff --git a/example-golang/Makefile b/example-golang/Makefile
@@ -8,14 +8,22 @@ build:
 run: build
 	./${BINARY_NAME}
 
+run-sort: build
+	./${BINARY_NAME} -n 10 -s
+
 test:
+	@go test ./... -v
+
+coverage:
 	@go test ./... -v -coverprofile=coverage.out  
-	
+
+
 cover: test
 	@go tool cover -html=coverage.out
 
 clean:
 	@go clean
 	rm -f coverage.out 
 	rm -f ./${BINARY_NAME}
-	rm -rf ./words
+	rm -rf ./words
+
diff --git a/example-golang/README.md b/example-golang/README.md
@@ -4,5 +4,12 @@
 
 ```
 make build
-GOGC=2000 ./main
+./main -n 8
 ```
+
+<pre>
+Usage of ./main:
+  -n int
+     Number of workers to run (zero to match the number of available CPUs) (default 10)
+  -s Sort results
+</pre>
diff --git a/example-golang/app/app.go b/example-golang/app/app.go
@@ -0,0 +1,65 @@
+package app
+
+import (
+	"fmt"
+	"os"
+	"path/filepath"
+	"sync"
+)
+
+const dirPerms = 0755
+
+type empty struct{}
+
+// Run extracts unique words from the list of files and saves them to the outDir.
+// No error handling, no context cancellation is implemented to match implementations
+// in other languages.
+func Run(srcDir, outDir string, numWorkers int, sortResults bool) error {
+	files, err := filepath.Glob(srcDir)
+	if err != nil {
+		return fmt.Errorf(`app: getting list of files "%s": %w`, srcDir, err)
+	}
+
+	if err = clearOutput(outDir); err != nil {
+		return err
+	}
+
+	// This is a very basic semaphore implementation. Counting unique words from
+	// a stream of data is IO, memory and CPU expensive. Semaphore lets to run
+	// up to the numWorkers or workers concurrently and, by default, this number
+	// matches the number of CPUs.
+	sem := make(chan empty, numWorkers)
+
+	var wg sync.WaitGroup
+	var spec *MetaConfig
+
+	for _, file := range files {
+		sem <- empty{}
+
+		if spec, err = ReadSpec(file); err != nil {
+			return err
+		}
+
+		src := file[:len(file)-3] + "txt"
+		dst := filepath.Join(outDir, spec.Lang+"-"+spec.Code+".txt")
+
+		wg.Add(1)
+		go extract(src, dst, "POLISH_CI", sortResults, sem, &wg)
+	}
+
+	wg.Wait()
+	close(sem)
+
+	return nil
+}
+
+func clearOutput(outDir string) error {
+	if err := os.RemoveAll(outDir); err != nil {
+		return fmt.Errorf(`app: cleaning previous results in "%s": %w`, outDir, err)
+	}
+	if err := os.MkdirAll(outDir, dirPerms); err != nil {
+		return fmt.Errorf(`app: creating output directory "%s": %w`, outDir, err)
+	}
+
+	return nil
+}
diff --git a/example-golang/app/extract.go b/example-golang/app/extract.go
@@ -0,0 +1,195 @@
+package app
+
+import (
+	"bufio"
+	"bytes"
+	"fmt"
+	"io"
+	"os"
+	"sort"
+	"strings"
+	"sync"
+	"unicode"
+	"unicode/utf8"
+
+	"github.com/tidwall/collate"
+)
+
+const filePerm = 0644
+
+// splitWordsUnicode splits data into words, using Unicode Letter character class.
+// It works similar to the regular expression "[^\p{L}]+". This is what was used
+// in the original code. Unicode function has slight overhead, but handles UTF-8
+// correctly.
+//
+// Rust and Python versions split text according to "[\W\d]+" - anything that is
+// not a word or a digit. WTF?
+func splitWordsUnicode(data []byte, atEOF bool) (advance int, token []byte, err error) {
+	var start int
+	var r rune
+	for width := 0; start < len(data); start += width {
+		if r, width = utf8.DecodeRune(data[start:]); unicode.IsLetter(r) {
+			break
+		}
+	}
+
+	for width, i := 0, start; i < len(data); i += width {
+		if r, width = utf8.DecodeRune(data[i:]); !unicode.IsLetter(r) {
+			return i + width, data[start:i], nil
+		}
+	}
+
+	if atEOF && len(data) > start {
+		return len(data), data[start:], nil
+	}
+
+	return start, nil, nil
+}
+
+// splitWords splits data into words similar to the "[\W\d]+" regular expression.
+func splitWords(data []byte, atEOF bool) (advance int, token []byte, err error) {
+	var start int
+	var r rune
+	for width := 0; start < len(data); start += width {
+		if r, width = utf8.DecodeRune(data[start:]); isLatin(r) {
+			break
+		}
+	}
+
+	for width, i := 0, start; i < len(data); i += width {
+		if r, width = utf8.DecodeRune(data[i:]); !isLatin(r) {
+			return i + width, data[start:i], nil
+		}
+	}
+
+	if atEOF && len(data) > start {
+		return len(data), data[start:], nil
+	}
+
+	return start, nil, nil
+}
+
+func isLatin(r rune) bool {
+	if r >= 0x80 || r == 0x00 {
+		return false
+	}
+
+	return ('a' <= r && r <= 'z') || ('A' <= r && r <= 'Z')
+}
+
+func extract(src, dst, lang string, sortResults bool, sem <-chan empty, wg *sync.WaitGroup) {
+	defer func() {
+		<-sem
+		wg.Done()
+	}()
+
+	fd, err := os.Open(src)
+	if err != nil {
+		_, _ = fmt.Fprintf(os.Stderr, `extract: opening source file "%s" for reading: %s`, src, err)
+		return
+	}
+	defer fd.Close()
+
+	// One of the possible optimisations here is to split file in chunks and process
+	// each chunk individually.
+	words, err := collectWords(fd)
+	if err != nil {
+		_, _ = fmt.Fprintf(os.Stderr, `extract: reading input "%s": %s`, src, err)
+		return
+	}
+
+	if sortResults {
+		less := collate.IndexString(lang)
+		sort.Slice(words, func(i, j int) bool {
+			return less(words[i], words[j])
+		})
+	}
+
+	wd, err := os.OpenFile(dst, os.O_WRONLY|os.O_CREATE|os.O_TRUNC, filePerm)
+	if err != nil {
+		_, _ = fmt.Fprintf(os.Stderr, `extract: opening destination file "%s" for writing: %s`, src, err)
+		return
+	}
+	defer fd.Close()
+
+	// Writing word by word can result in too many writes, hence, it is slow.
+	// Let's add some steroids ...
+	wr := bufio.NewWriter(wd)
+
+	if err = writeResults(wr, words); err != nil {
+		_, _ = fmt.Fprintf(os.Stderr, `extract: writing results "%s": %s`, dst, err)
+		return
+	}
+	if err = wr.Flush(); err != nil {
+		_, _ = fmt.Fprintf(os.Stderr, `extract: writing results "%s": %s`, dst, err)
+		return
+	}
+
+	// _, _ = fmt.Fprintf(os.Stdout, "Saved %s\n", dst)
+}
+func collectWords(r io.Reader) ([]string, error) {
+	scanner := bufio.NewScanner(r)
+
+	scanner.Split(splitWordsUnicode)
+
+	dict := make(map[string]empty)
+	for scanner.Scan() {
+		word := strings.ToLower(scanner.Text())
+		if _, ok := dict[word]; ok {
+			continue // duplicate detected
+		}
+
+		dict[word] = empty{}
+
+		// Theoretically, if sorting is not needed, we can write right here and
+		// skip words slice preparation below.
+	}
+	if err := scanner.Err(); err != nil {
+		return nil, err
+	}
+
+	// This is expensive ...
+	words := make([]string, len(dict))
+
+	var i int
+	for w := range dict {
+		words[i] = w
+		i++
+
+		delete(dict, w)
+	}
+
+	return words, nil
+}
+
+func writeResults(w io.Writer, words []string) error {
+	// This is to preallocate memory once for "string => []byte + \n" conversion
+	// and reuse it on every iteration.
+	var buf bytes.Buffer
+	for _, word := range words {
+		buf.WriteString(word)
+		buf.WriteRune('\n')
+
+		if _, err := buf.WriteTo(w); err != nil {
+			return err
+		}
+
+		buf.Reset()
+	}
+
+	return nil
+}
+
+func ExtractUniqueWords(content string, lang string) ([]string, error) {
+	r := strings.NewReader(content)
+	words, err := collectWords(r)
+	if err != nil {
+		_, _ = fmt.Fprintf(os.Stderr, `collectWords error: %s`, err)
+		return nil, err
+	}
+	less := collate.IndexString(lang)
+	sort.Slice(words, func(i, j int) bool {
+		return less(words[i], words[j])
+	})
+	return words, nil
+}
diff --git a/example-golang/app/spec.go b/example-golang/app/spec.go
@@ -0,0 +1,28 @@
+package app
+
+import (
+	"fmt"
+	"os"
+
+	"gopkg.in/yaml.v3"
+)
+
+type MetaConfig struct {
+	Lang  string `yaml:"lang"`
+	Code  string `yaml:"code"`
+	Label string `yaml:"label"`
+}
+
+func ReadSpec(filepath string) (*MetaConfig, error) {
+	p, err := os.ReadFile(filepath)
+	if err != nil {
+		return nil, fmt.Errorf(`spec: reading YAML file "%s": %w`, filepath, err)
+	}
+
+	var config MetaConfig
+	if err = yaml.Unmarshal(p, &config); err != nil {
+		return nil, fmt.Errorf(`spec: parsing YAML file "%s": %w`, filepath, err)
+	}
+
+	return &config, nil
+}
diff --git a/example-golang/app_test.go b/example-golang/app_test.go
@@ -0,0 +1,21 @@
+package main
+
+import (
+	"fmt"
+	"os"
+	"testing"
+	"wordextractor/app"
+
+	"github.com/stretchr/testify/assert"
+)
+
+func Test_ExtractUniqueWords(t *testing.T) {
+	text := "ćma cześć ser. śmiech!żółw zebra-łuk len Ćma Żółw ser"
+	expected := []string{"cześć", "ćma", "len", "łuk", "ser", "śmiech", "zebra", "żółw"}
+	given, err := app.ExtractUniqueWords(text, "pl")
+	if err != nil {
+		_, _ = fmt.Fprintf(os.Stderr, `ExtractUniqueWords error: %s`, err)
+		return
+	}
+	assert.Equal(t, expected, given, "text should be tokenized into unique words")
+}
diff --git a/example-golang/go.mod b/example-golang/go.mod
@@ -1,6 +1,6 @@
-module github.com/hipertracker/word_extractor
+module wordextractor
 
-go 1.18
+go 1.17
 
 require (
 	github.com/bmatcuk/doublestar v1.3.4
diff --git a/example-golang/main.go b/example-golang/main.go
diff --git a/example-golang/main_test.go b/example-golang/main_test.go