Superbrugerforum på kbharkiv.dk (2016-2020)

JEPPE: Samme løbenr brugt flere gange?

Oprettet af
2019-05-24 19:53:17
Forfatter Indlæg
Skrevet af
2019-05-24 19:53:17
Man kan komme til at fejllæse/fejltaste et løbenr, som jo ikke er en primær nøgle. Vi kunne nemt trække en liste over de - forhåbentlig få - dubletter

select protokol, lobenr, ct
from (select protokol, lobenr, count(*) as ct
from poster
– her kan man begrænse til enkelte protokoller: where protokol in (.., .., )
group by protokol, lobenr) a
where ct > 1
Skrevet af
2019-07-10 11:40:50
HEj BJørn
Jeg har bakset lidt med det se denne liste:
https://docs.google.com/spreadsheets/d/1kCPGU6uyZMqly3-vh2oRn3MSIqjhf2hjO95fEaB3meA/edit?usp=sharing
Mange hilsner fra
Jeppe
Digitalarkivar ved Københavns Stadsarkiv
Skrevet af
2019-07-10 12:13:02
Der er så godt 2.800 problemer, som vi skal have fikset. Det er cirka 1 ud hver hundrede indtastede.
Vi kan vi vel være flere om det.
Men for at vi ikke ser på de samme problemer allesammen, så foreslår jeg, at man her tegner sig for en periode.
Jeg tilbyder i første omgang at tage 1890-1899, det er ca. 500
Man kan bruge linket sidst i hver linie til at komme ind til den ene af posterne. I feltet før dette er posteringsnummeret til den anden - men desværre kan man ikke bare skifte løbenummeret. Linket indeholder nemlig også sidenummer. Måske er det lettere at søge de to frem ved at angive dødsår og løbenummer
Skrevet af
2019-07-10 13:44:32
Hej Bjørn
Jeg må desværre melde fra til denne opgave. Har hænderne fulde af andre rettelser, mest på Politiets Registerblade, men også på begravelserne, bl.a. en masse fejlindtastning af hospitaler under Institution, hvor det burde være dødssted. Er færdig med Kommunehospitalet, men så er der de andre hospitaler. Eks:
https://www.kbharkiv.dk/sog-i-arkivet/sog-i-indtastede-kilder#/post/1-154284
Venlig hilsen Eva E
Skrevet af
2019-07-11 10:45:33
Hej Jeppe,
Ville det være meget besværligt at fremskaffe link til BEGGE poster, der har samme løbenr?

Jeg kan i dag vælge to fremgangsmåder:
1) søg på dødsår + løbenummer og find de to, ret den forkerte
2) brug linket, hvis den post er forkert, så ret den, ellers søg på dødsår + løbenummer og find den anden
Metode 2 synes hurtigere - når linket viser den med fejl, men er klart langsommere, når det er den anden
Det tager 1-2 minutter pr. linie, så der er med det nuværende system til ca. 70 timers arbejde
Typiske fejl er
[ul]
[li]7-taller læses som 4-taller
[li]nuller læses som 1-taller
[li]51 læses som 57 eller 54
[li]løbenummeret er rettet (dvs. to tal oven i hinanden) og derfor svært at læse
[li]der mangler et ciffer
[li]to cifre er byttet om
[li]posten er tastet dobbelt eller scannet dobbelt[/li]
[li]protokollens årstal er tastet som løbenummer
[/ul]
Skrevet af
2019-07-11 12:49:08
Hej Bjørn
Jeg har givet hver post sit eget link i et nyt ark. Prøv lige at se om det er bedre at arbejde med :)
Mange hilsner fra
Jeppe
Digitalarkivar ved Københavns Stadsarkiv
Skrevet af
2019-07-11 16:38:43
Ja, det blev meget bedre. Nu er jeg kommet lige under et minut pr. sag og det er mindre forvirrende at arbejde med
Skrevet af
2019-07-14 10:34:56
Så er 1890-1899 rettet til mht. løbenumre, 579 par, sat til 579 minutter
Det er sådan set ret let at gå til efter Jeppes liste (se hans link)
Tegn dig i denne tråd for en periode, f.eks. 5 år = ca. 250 dobbeltregistreringer.
Kopier disse linier fra Jeppes liste over til dit eget Excel-ark. Jeg tilføjer også en kolonne til at markere, at jeg har behandlet de pågældende.

Klik derefter på et af linkene i en dobbeltregistrering. Hvis løbenummeret er registreret forkert rettes det og makkeren ignoreres. Hvis tallet er rigtigt, så er makkeren nok forkert. Klik på den og ret.
Så markerer jeg de to som rettet og går videre til næste par.

Med lidt øvelse tager det ca. 45 sekunder pr. par.
Hvis der er tale om dubletter (dobbelt tastet eller dobbelt scannet), så sletter jeg den sidst tastede / den på den sidste side ved at sætte løbenummer til 0, skrive "Slettet" i fornavne og efternavn og fjerne de øvrige felter. Det tager et par minutter.
I gennemsnit knap 1 minut pr. par
Hvis man tegner sig for 5 år = ca. 250 sæt registreringer tager det altså omkring fire timer, en overkommelig opgave.
fortsætter med 1885-1889, 258 par … det tog præcis 4 timer (8 x ½ t), 55 sek pr. par [tilføjet 2019-07-16 16:00]
fortsætter med 1880-1884, 342 par … det tog præcis 5 timer, 53 sek. pr. par [tilføjet 2019-07-19 10:00]
fortsætter med 1877-1879, 106 par … det tog 82 minutter, 46 sek. pr. par [tilføjet 2019-07-19 18:00]
fortsætter med 1870-1872, 242 par … det tog præcis 3 timer, 44 sek. pr. par [tilføjet 2019-07-21 16:00]
fortsætter med 1865-1869, 323 par … det tog 307 minutter, 57 sek. pr. par [tilføjet 2019-07-25 13:00]
Det er 67%! Nu holder jeg pause et par dage- I må gerne tegne jer her for en femårs-periode
fortsætter med 1861-1864. 219 par … det tog 201 minutter, 55 sek. pr. par [tilføjet 2019-08-01 11:30]
fortsætter med 1900-1904A, 341 par … det tog præcis 6 timer, 63 sek. pr. par [tilføjet 2019-08-06 23:55], det var 80%
fortsætter med 1904B-1908, 276 par … det tog præcis 5 timer, 65 sek. pr par [tilføjet 2019-08-09 09:45], det var 90%
fortsætter med resten, 271 par … det tog 275 minutter,, 61 sek. pr. par [tilføjet 2019-08-11 13:00], 100¤
samlet har det taget 47 timer
Skrevet af
2019-08-11 11:58:39
Så er jeg med en ihærdig indsats i løbet af en fuld måned kommet gennem de 5510 linier i Jeppes liste over løbenumre, der fandtes to eller flere gange, på bekostning af mange andre ting, herunder selvfølgelig indtastning af begravelsesprotokoller. Samlet har det taget 47 timer, fordelt på sessioner af 20-60 minutter. Hertil kommer nogle timers oprydning og rapportering, så det er nok 50 timer alt i alt
Der har været adskillige situationer
- et løbenummer er læst/tastet forkert, det er blot rettet. Hvis det var det første af to, har jeg sprunget makkeren over. I mange tilfælde har det været svært at se, hvilken af de to, som var forkert. Så har jeg måttet bladre lidt frem og tilbage for at se de nærmest foregående/efterfølgende numre, skriverens tal er ikke altid lette at tyde, f.eks. minder 7 og 4 meget om hinanden, syvtallet med en bue foroven, ligeledes 6 og 0, sekstallet med en bolle forneden på størrelse med de øvrige tal
- en post er tastet dobbelt, enten på grund af dobbelttastning eller på grund af dobbeltscanning. Her har jeg beholdt den ældste registrering og rettet den nyeste til med løbenummer 0, fornavne til Slettes, efternavn til Slettes og fjernet alle de øvrige felter, cirka 250 tilfælde. I nogle tilfælde var markeringen bevidst flyttet uden for arket. Den har jeg så flyttet tilbage, lidt skævt, for nu har de jo intet løbenummer. Men disse så jeg gerne slettet (se mit indlæg om oprydning)
- flere poster har af skriveren fået samme løbenummer, næsten altid angivet med a, b, … Et par gange har der været 8 på samme nr., 222 poster
- en post har oplagt fået et forkert løbenummer, 6 tilfælde, f.eks. https://www.kbharkiv.dk/kildetaster/#/task/1/page/118531/post/94723
Det har jeg angivet i kommentar-feltet. Det er ganske vist ikke kildetro! Men det giver ingen mening at angive et forkert løbenummer, så kan en bruger jo ikke finde personen

Nu er jeg interesseret i en ny liste. Vi skulle gerne være komme ned på 300-400 stykker (hvis der ellers ikke er kommet nye protokoller til). Helt ned på nul kommer den ikke
- der er dels de 222 dubletter fra skriverens hånd, a, b, c …
- i nogle tilfælde har jeg sikkert glemt at trykke opdater post efter at have rettet
- i nogle tilfælde vil det rettede nummer allerede eksistere

Og så holder jeg ellers ferie fra Arkivet resten af måneden.
Skrevet af
2019-08-12 11:50:42
Hej Bjørn
Meget flot arbejde :)
Jeg har opdateret listen. Der er 948 poster tilbage fordelt på 348 forskellige sider.
Mange hilsner fra
Jeppe
Digitalarkivar ved Københavns Stadsarkiv
Skrevet af
2019-08-13 14:23:13
Så er alt på plads.
Det var ikke så galt, som det umiddelbart så ud. Med lidt arbejde i Excel fik jeg frasorteret alle med 0 i løbenr og Slettes i fornavn og alle, der tidligere var konstateret som dublet. Det fjernede to tredjedele af listen. De resterende var dels ikke-opdaterede gamle, dels nye kommet til i den forløbne måned.