deduce / Git / [79668b] /tests/unit/test

Models:
philipB/
deduce
Downloads: 1
[79668b]: / tests / unit / test_tokenizer.py
History
Download this file
99 lines (80 with data), 3.8 kB

import docdeid as dd
import pytest

from deduce.tokenizer import DeduceTokenizer


@pytest.fixture
def tokens():
    return [
        dd.Token(text="Patient", start_char=0, end_char=7),
        dd.Token(text="was", start_char=8, end_char=11),
        dd.Token(text="eerder", start_char=12, end_char=18),
        dd.Token(text="opgenomen", start_char=19, end_char=28),
        dd.Token(text="(", start_char=29, end_char=30),
        dd.Token(text="vorig", start_char=30, end_char=35),
        dd.Token(text="jaar", start_char=36, end_char=40),
        dd.Token(text=")", start_char=40, end_char=41),
        dd.Token(text="alhier", start_char=42, end_char=48),
        dd.Token(text=".", start_char=48, end_char=49),
    ]


class TestTokenizer:
    def test_split_alpha(self):
        tokenizer = DeduceTokenizer()
        text = "Pieter van der Zee"
        expected_tokens = [
            dd.Token(text="Pieter", start_char=0, end_char=6),
            dd.Token(text="van", start_char=7, end_char=10),
            dd.Token(text="der", start_char=11, end_char=14),
            dd.Token(text="Zee", start_char=15, end_char=18),
        ]

        assert tokenizer._split_text(text=text) == expected_tokens

    def test_split_nonalpha(self):
        tokenizer = DeduceTokenizer()
        text = "prematuur (<p3)"

        expected_tokens = [
            dd.Token(text="prematuur", start_char=0, end_char=9),
            dd.Token(text="(", start_char=10, end_char=11),
            dd.Token(text="<", start_char=11, end_char=12),
            dd.Token(text="p3", start_char=12, end_char=14),
            dd.Token(text=")", start_char=14, end_char=15),
        ]

        assert tokenizer._split_text(text=text) == expected_tokens

    def test_split_multiple_spaces(self):
        tokenizer = DeduceTokenizer()
        text = "Pieter van der Zee     Bergen Op  Zoom"
        expected_tokens = [
            dd.Token(text="Pieter", start_char=0, end_char=6),
            dd.Token(text="van", start_char=7, end_char=10),
            dd.Token(text="der", start_char=11, end_char=14),
            dd.Token(text="Zee", start_char=15, end_char=18),
            dd.Token(text="     ", start_char=18, end_char=23),
            dd.Token(text="Bergen", start_char=23, end_char=29),
            dd.Token(text="Op", start_char=30, end_char=32),
            dd.Token(text="Zoom", start_char=34, end_char=38),
        ]

        assert tokenizer._split_text(text=text) == expected_tokens

    def test_split_newline(self):
        tokenizer = DeduceTokenizer()
        text = "regel 1 \n gevolgd door regel 2"

        expected_tokens = [
            dd.Token(text="regel", start_char=0, end_char=5),
            dd.Token(text="1", start_char=6, end_char=7),
            dd.Token(text="\n", start_char=8, end_char=9),
            dd.Token(text="gevolgd", start_char=10, end_char=17),
            dd.Token(text="door", start_char=18, end_char=22),
            dd.Token(text="regel", start_char=23, end_char=28),
            dd.Token(text="2", start_char=29, end_char=30),
        ]

        assert tokenizer._split_text(text=text) == expected_tokens

    def test_join_tokens(self, tokens):
        text = "Patient was eerder opgenomen"
        joined_token = DeduceTokenizer()._join_tokens(text, tokens[0:4])
        expected_token = dd.Token(text=text, start_char=0, end_char=28)

        assert joined_token == expected_token

    def test_split_with_merge(self):
        tokenizer = DeduceTokenizer(merge_terms=["van der"])
        text = "Pieter van der Zee"
        expected_tokens = [
            dd.Token(text="Pieter", start_char=0, end_char=6),
            dd.Token(text="van der", start_char=7, end_char=14),
            dd.Token(text="Zee", start_char=15, end_char=18),
        ]

        assert tokenizer._split_text(text=text) == expected_tokens