Kopie des alten Systems

Dies ist eine alte Kopie des GenWiki und spiegelt den Stand vom 8. Mai 2022 wider.

This is an old copy of the GenWiki and reflects the status as of May 8, 2022. Please visit us at wiki.genealogy.net

SlownikGeo - Polnische Beschreibung -

aus GenWiki, dem genealogischen Lexikon zum Mitmachen.

Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Opis Projektu

Wprowadzenie

Obróbka tekstów i tłumaczenie 16 tomów (14 785 stron) Słownik Geograficzny Królestwa Polskiego (i innych krajów słowiańskich)(z latach 1880 – 1902) [Geografisches Lexikon des Königreiches Polen][und anderer slawischer Länder] [1880 – 1902] z jęyzka polskiego na język niemiecki i obróbka w tym zawieranych danych dla genealogicznego spisu miejscowośćiach w GOV, GenWiki i Hic Leones.


Przedhistoria

W roku 2003 publikowała PGSA 16 tomów Słownik Geograficzny na nośiku danych CD-ROM (w formacie djvu). Projekt finansowano przez PGSA i przeprowadzono przez Rafał T. Prinke, Poznań, Polska, z dodatkowym materiałem przez William F. Hoffmann.. Kilka strony były tłumaczone (angielsko) przez PGSA-członków.

Pomysł

Tomy Słownik Geograficzny na CD-ROM, wydana przes PGSA, zawierają opisy wszystkich regionów, miast, wsie i innych miejscowości, góry, rzeki i jeziora Królestwa Polskiego (Kongresówka) i w słowiańskim obszarze językowym: bałtyckie, zachodnie i południowe gubernie (governments) rosyjskiego państwa, Prusy Zachodnie i Prusy Wschodnie, wielkie księstwo Poznań, prusacki Śląsk , Galicja, austriacki Śląsk, Morawy , słowiańskie części Węgier i Bukoviny i dodatkowo także dalsze ważne miejsca w pozostałych gubernien europejskiej Rosji (jak tam są: dworki wiejskie, parafie, dworce kolejowe itd, oceniono: około 315 000 - 350 000 wpisów), jednak:

  • chodzi o pliki obrazowe, które nie można na każde pojęcie przeszukiwać
  • są to teksty w języku polskim, które nie każdemu (niemieckiemu) badaczu bezpośrednio dostępnie są.

Więc jest to pożądanie, ten skarb informacji dla kulturalnego i rodzinnego badacza umożliwieć jako:

  • pliki tekstowe (z globalnymi funkcjami przeszukiwania po każdych pojęciach)
  • korzystanie tej informacji w języku niemieckim, albo inny łumaczony języki.

Prace Przedwstępne

W eksperymencie, pliki obrazowe Słownik Geograficzny z CD-ROM do rozpoznawania i digitalizowanja przez OCR, wykazywały bardzo dobre wyniki (> 95 % poprawnych plików tekstowych; FineReader, Ver. 6.0), włącznie specyficznych polskich znaków pisarskich.

Prawne

H.V.J. Kolbe (Hic Leones) kontaktował PGSA ((Public Relations: Mrs. Cynthia Piech, Chicago)) piśmiennie z przykładami tych OCR-wyników z następującą propozycją:

  • PGSA stawia Hic Leones pliki obrazowe Słownik Geograficzny urzędowo i bezpłatnie do zastosowania, by przekonywać wszystkie 14 785 stron z plikach obrazowych w pliki tekstowe.
  • W wzajemnie otrzymuje PGSA przez Hic Leones pliki tekstowe do własnego zastosowania (naprzykład do tłumaczenia w język angielski, dalsze CD (pliki obrazowe i pliki tekstowe) itd.) bez dalszych zobowiązań.

PGSA stała pozytywnie do tej oferty i H.V.J. Kolbe otrzymał w wrześniu 2005r. pisemne zgodzenie zarządu PGSA (Board of Directors). Z tym były legalne użycia danych wyjaśnione. Dodatkowo ztworzył się nowy, interesujący kontakt (przez PGSA) do genealogii w Polsce.

Wynik ten, stał ogłeszony przez Hic Leones w roku 2005 z okazji 57. Genealogentag in Hannover/Germany (57-ego. „Dzień Genealoga” w Hanowerze). PGSA ogłaszała w przymierze jednocześnie z okazji 27th Annual Conference in Schaumburg/IL (Schaumburgu/IL).

Digitalizacja tekstu wszystkich 14 785 stron Słownik Geograficzny była przy końcu września 2005r. zakończona. Ogólny polski tekst posyłano przez Hic Leones na CD-ROM w końcu października 2005r. Cynthia Piech.


Projekt

Sposób

Współpraca naukowa.

Partnerzy Projectu i Przyczynek

PGSA (Polish Genealogical Society of America)

http://www.pgsa.org

  • Skanować 14 785 stron Słownik Geograficzny, w plikie obrazowym.
  • Edycja Słownik Geograficzny Królestwa Polskiego na CD-ROM.

Hic Leones

http://www.hicleones.com

  • Rozpoznawanie tekstu (OCR) z 14 785 stron Słownika Geograficznego, w pliki tekstowe
  • Koncepcja i koordynacja projektu

CompGen

(Verein für Computergenealogie e. V.)

  • Przygotowanie pliku danych moduła import/eksport
  • Spółkowa-koordynacja projektu

FGG (Forschungsgruppe Grafschaft Glatz)

http://www.genealogienetz.de/vereine/AGoFF/fst/fgr_glat.htm

  • Program tłumaczenia PL => D, (z jęyzka polskiego na język niemiecki) do przed-tłumaczenia tekstu


Warunki

By ogromną pojemność tekstu (formatowany tekst około 250 MB, nie formatowany tekst około 70 - 80 MB) wydajnie i nieprzerwanie tłumaczyć w język niemiecki, trzeba dane w bazę danych (tzn. w tymczasową roboczą bazę danych) przeprowadzić i administrować.

Zainteresowane badacze, znając obcego języka, mogą wtedy w czystym formacie tekstu wyciągi stron tej roboczej bazy danych otrzymać. Dodatkowo oni otrzymją specjalnym font - dla obcych charakterów, (na przykład: do specyficznych polskich znaków pisarskich) i szczupłą roboczą instrukcję. [zobacz też niżej] - Przykład do współpracy z Tłumaczem -. Zainteresowane badacze mogą strony jich własnego interesu pobierać i w spokoju (offline) tłumaczyć i opracować. [1].

Oszacowanie wykazało, że już po jednomiesięcznej przedwstępnej pracy, w której z funkcją: Szukać/Zamieniać w roboczej bazie danych polskie skrócenia przez niemieckie łatwo zamieniać można. Także i inne standardowe pojęcia (razem około 300 - 400 pojęć, n.p. dworzec, poczta, kościół, mieszkaniec itd). Przez ten sposób już można około 40 % tekstu ‘zniemczeć′ i ogólno zrozumieć.Też dla kogoś, który nie biegle władzi w języku polskim.


Terminarz

Plan czasu i znaczenie kolorów w krokach projektu [ zielony = załatwione albo w opracowaniu , czerwono = w planowaniu ]

  • Scanowanie 14 785 stron Słownika Geograficznego (załatwiono przez PGSA w roku 2003).
  • Rozpoznawanie tekstu (OCR) 14 785 plików obrazowych Słownika Geograficznego i gromadzenie plików tekstowych w formacie CP 1250 (załatwiono przez Hic Leones w wrześniu 2005r.).
  • Wytworzenie plików w formacie *. pdf, leksykona PL => D z roku1879, z zakładkami do szybszejszego wykrywania słów, jako pomoc przy tłumaczeniu (załatwiono przez Hic Leones w grudniu 2006r.; można odnaleźć na CompGen-Disc 2006/2007).
  • Programowanie moduła import/eksport do rozszerzenia roboczej bazy danych ( do środka lutego 2007r.).
  • Import 14 785 plików tekstowych Słownika Geograficznego w roboczą bazę danych uwzględniając obce charaktery, to znaczy: specyficzne polskie znaki pisarskie ( w środku lutego 2007r.).
  • Wytworzenie ciągle rozszerzającą listę tłumaczenia – w słowie za słowo. (w początku stycznia 2007r.).
  • Streszczenie projektu w zarysu artikułowym w czasopiśmie 'Computergenealogie’ (w początku lutego 2007r.), publikacja w koniecu marca 2007.
  • Wewnętrznie (intern): oddalenie systematycznych OCR-błędów, nie potrzebnych łączników i znaków spacja; wstawienie pustej wierszy za każdą geograficzną notatką. (ciągle od środka lutego 2007r.).
  • Wewnętrznie (intern): z funkcją Szukać/Zamieniać, dokumentalne zamienienie polskich skrótek na niemieckie skrótki ) (ciągle od środka/końca lutego 2007r.).
  • Wewnętrznie (intern): dokumentalne szukanie i zamienienie z funkcją Szukać/Zamieniać dlszych (około 300) standardnych poj) (ciągle od środka/końca lutego 2007r.).
  • Do realizacji projektu SlownikGeo są wielu ochotników potrzebnie. W umowie z moderatorami genealogicznych list mailingowych zawierano: zapowiedzenie projektu w tych list (w środku mai 2007r.) i wezwanie do eksternistycznej współpracy. Powtórzenie tego zapowiedzenia, z krótkim sprawozdaniem postępu, w czasie około dwuch miesięcy.
  • Wytworzenie glosariusza, które polskie pojęcia powinni być pozostawione z osobnym objaśnieniem tych pojęci (w współpracy z prof. Eichler, Lipsk) (od środka/końca lutego 2007r.).
  • Odpowiednie wezwania w związkowych czasopismach (ciągle od środka marca 2007).
  • Wstawienie tłumaczonych i poprawionych stron w GOV i Hic Leones:

Skoro tylko strony uzrobione są, oni otrzymują odpowiedne oznakowanie, (aby chronić ich przeciw dalsze zmiany w tekstu). Następnie otrzymają te strony odpowiedne współpracowniki z powrotem, którzy za tem wpisują opisane miejscowości w GOV (ciągle od marca 2007r.).

  • Planowane zakończenie projektu (ostrożne oszacowanie): w roku 2011.

Polscy autorzy tego dzieła potrzebowali 22 lat w sprawie dochodzenia, ujęcia, korekty i edycji tej encyklopedycznej serii. W miarze obecnych możliwościach techniki, powinno było być w ćwierci tego czasu, (5 do 6 lat), w tłumaczeniu i wstawieniu w GOV przeprowadzić ...

Przykład do współpracy z Tłumaczem

  • Niemiecki współpracownik znając obcy język (polski) sygnalizuje swoją gotowość do współpracy. (adresy kontaktowe zobacz niżej). Ona/on otrzymuje (przesyłano przez e-mail):
    • lość stron tekstu jego wyboru (na przykład 10) w formacie tekstowym (włącznie wyżej objasnony font specjalny)
    • odpowiednie wybrane strony Słownik Geograficzny w 10 plikach obrazowych w oryginale (w formacie: tif) do kontroly.
    • wraz krótką instrukcję do opracowania
    • prosty EXCEL-plik, w którym dotychczasowe słowne zamienienia dokumentowane są
    • PDF -plik PL => D leksykona, trzecia edycja z roku1879, z zakładkami do szybszejszego słownego wykrywania (na CompGen-Dual-Disc 2006/2007 do znajdowania albo do ściągnienia)
  • Ona/on opracowuje strony. Znajdzie ona/on wyraz ( "standardowe pojęcie projektu"), który przez koordinatory projektu w roboczej bazie danych globalnie powinny był by zamienony być, wpisuje ona/on znależiony wyraz z niemieckiem ekwiwalentem w opisany EXCEL-plik..[2]. Kiedy tłumacze są gotowi, oni odsyłają tłumaczone10 plików tekstowe z powrotem do nadawca, który jich teraz znowa z roboczą bazą danych zjednoczuje (re -import) i odpowiednio do dalszego wykonania zaznacza.


Jeszcze pytania ? Interesant do współpracy ?

Proszę Państwo się zwrócić do:

Dr. Hanno V. J. Kolbe (koordynator)
6, rue des Tuiliers
67204 Achenheim/ Francja
E-Mail: mailto:kolbeDIESEN-SPAMSCHUTZTEXT-BITTE-VOR-DEM-SENDEN-ENTFERNEN@hicleones.com

Peter Lingnau (spółkowy-koordynator GOV)
Spicherer Str. 43
86157 Augsburg/ Niemcy
E-Mail: mailto:PeterLingnau(at)yahoo.de

Objaśnienie

  1. Pomocą tłumaczenia stoi każdemu zainteresowanemu współpracownikowi 998-stronicowy leksykon polsko - niemiecki (trzecia edycja z roku1879) bezpłatnie do dyspozycji. Są to digitalizowane pliki obrazowe (PDF-plik na rocznej CompGen CD z roku 2006) i zawierają szczegółowe zakładki. Dodatkowo przyczyniła FGG (Grupa Badania Hrabstwa Kłodzkiego) program tłumaczenia PL <=> D, by być w stanie, szybkie przedtłumaczenia przygotowić. (Limitacja programów tłumaczących są znane, jednak przy Slownik Geograficzny chodzi to o specyfikację od statystycznych danych i nie o filozoficzną rozprawę albo poezję...)
  2. W ten sposób przyczynia się każdy współpracownik do tego, że doświadczenia, które z nielicznymi stronami zrobił, na wszystkie strony móc przenosić. (Koordynatory projektu ogólnie kontrolują przenoszenia. W tem sposobie wyjściowa jakość jeszcze nie tłumaczonego tekstu staje się coraz lepiej i wydatek tłumaczenia powinien był stawać się z czasem coraz mniejszy. (tzn. szybkość tłumaczenia powiększa się). Załatwione strony stoją dla GOV, GenWiki i Hic Leones do wdrożenia do dyspozycji.
Persönliche Werkzeuge
In anderen Sprachen