Perseus Projektu Textů Vložen pod PhiloLogicFinal sezóny pro PhiloLogic 3, Letní 2018
Vítejte Perseus pod PhiloLogic. Už je to dlouho, co jsme vydali oficiální aktualizaci, ale tady to je, díky neúnavné hádky (C, perl, apache a mnoho dalších arcana) letos v létě Walt Shandruk. V uplynulých letech došlo k významné práci zejména na straně řeckých textů, a některá vylepšení funkčnosti filologické pro … filolog. Chtěl bych poděkovat všem, kteří nám v průběhu let psali, aby nahlásili překlepy a další chyby; nebo jednoduše nahlásili výpadek serveru. Jsme rádi, že se stále vracíte pro další.
Pokud Perseus mateřskou, na Tufts představuje dobře vybavené knihovny carrel, s texty, komentáře, slovníky a další zdroje, vše na dosah ruky na stejné straně, pak organizace z této stránky může přijít jako překvapení. Spíše než čtení s aparátem, naším cílem je nabídnout zkoumání textů prostřednictvím řady korpusových dotazů. Protože mnoho textů byly analyzovány po ruce, a zbytek z nich s počítači, můžete hledat způsoby, které nechcete vidět v příliš mnoha jiných místech: například, hledat pro současné imperativy v Plato, nebo částice μέν pouze v řádcích mluvený Ismene. Hledáte formy βροτό na konci věty? Jsme tu, abychom jim sloužili. Pro zkušené čtenáře a čtenáře po začátečnících doporučujeme také nástroje, které budou nyní známé, doufám: Klíčové slovo v kontextovém pohledu a nástroj pro kolokaci.
Jsme vděční za všechny zprávy o problémech a návrhy uživatelů; mějte je (a vaše dary:-)) přichází. Chcete-li držet krok s vývojem, zvažte následující nás na Twitteru: @LogeionGkLat. Práce, která čeká: opravdu chceme začlenit více textů, které jsou neustále dostupné z digitální knihovny Perseus. Ještě důležitější je, že musíme přizpůsobit novou generaci Filologic, Filologic4, potřebám klasiků (myslet: navigace, která není podle čísla stránky v edici; lemma vyhledávání; …), abychom již nebyli závislí na patnáct let staré technologii. Zůstaňte s námi.
pozadí: odkud tyto texty pocházejí?
texty, které máme k dispozici na tomto webu jsou prakticky všechny používané povolení od Perseus Projektu na Tufts University, foremostDigital Knihovna pro klasickou světa, ne-li pro theHumanities obecně. Ve své sbírce řeckých a římských materiálů najdou čtenáři mnoho kanonických textů čtených dnes. Greekcollection se blíží 8 milionům slov a Latinská sbírka má v současné době 5,5 milionu. Kromě toho, mnoho anglických jazykových slovníků, další referenční práce, překlady, a komentáře jsou zahrnuty, takže každý, kdo má připojení k internetu, má přístup k ekvivalentu slušné knihovny College Classics. Řecké a latinské texty jsou bohatě kódovány spíše pro obsah než pro formu (např. ne konce stránek, iniciály a odsazení, ale informace mluvčího, metrické informace a milníky). Stránka Perseus je dále obohacena složitými mechanismy propojení mezi texty (výsledkem je více než 30 milionů odkazů). Pro licenční informace, podrobnosti o editorech a překladatelích atd., klikněte na odkazy záhlaví XML, které se zobrazují v bibliografických detailech textů. Pro konzultaci odkaz funguje, nyní doporučuji jít rovnou do Logeion na webu nebo v aplikaci; jsme stále nabízejí vyhledávání LSJ, Lewis & Krátké, a Slater; a dali jsme na odkaz na Woodhouse angličtina-řecký Slovník.
co jste udělali s texty? nebo: kde je zrcadlo?
zde najdete výběr textu na webu Tufts, ale mechanismus pro jejich procházení a vyhledávání je jiný. Je to filologický systém, který byl speciálně vyvinut pro velké textové databáze projektem ARTFL na Chicagské univerzitě. Zatímco původní Perseus stránky je vynikající nástroj pro lineární čtení, tím, že všechny druhy zdrojů na stejné straně, zatímco uživatel čte pasáže, zajímali jsme se o využití bohaté kódování pro vyhledávání textů, a pro další úkoly, které jsou méně o čtení a více o výzkumu: korpusová lingvistika, především. Jsme vděčni za to, že Perseus Projektu činí jeho texty jsou k dispozici třetím stranám, a nadále žít v naději, že ostatní ne-pro-zisk instituce věnující se (řecká) text curation zvýší jejich vyhledávání a analýza nabídky, nebo následovat příkladu Perseus, a rozhodnout, aby jejich data k dispozici pro pokročilé analýzy s jinými systémy, než je jejich vlastní. Prosím, dostat do kontaktu, nebo si stáhněte vlastní kopii PhiloLogic, který je open-source.
Proč mi váš web nedává Cicero číst, když zadám Cicero do vyhledávacího pole?
je důležité si uvědomit, že filologický vyhledávací formulář není jako vyhledávací pole Google. Hlavní vyhledávací box je pro slova, která se vyskytují v textu, tak, že zadáním ‚Gallia est‘ najdete úvodní věta z Galských Válek, ale zadání ‚Julius Caesar‘ bude v první řadě vést vám texty Catullus a Cicero. Od naší domovské stránce, klikněte na odkaz pro plnou vyhledávání, kde můžete použít Autora a Název pole nebo zadejte standardní citace v horní části (na základě Oxford Classical Dictionary). Pokud vaše citace není to, co server očekává, dostanete úplný seznam všech textů, který vám ukáže zkratku, kterou používáme.
proč nejste více jako Google?
PhiloLogic je navržen tak, aby využít bohaté strukturální kódování, které Perseus texty nabízejí, a proto, aby znát rozdíl mezi typy obsahu: slova v textech, oproti tzv. metadata: autory, tituly, a mnoho dalšího. Je také navržen tak, aby umožňoval přesné odpovědi na konkrétní otázky, spíše než odhady ballpark typu „máte štěstí“. Pokud budete hledat slovo ‚amicitia‘ v textech, nebo pro název ‚Svobodu‘, nechceme vás najít případy z titulů, nebo reproduktor indikace-pokud zadáte, že to je druh informace: tituly, které patří amicitia, slova Pseudolus, které chcete. Jsme přesvědčeni, že oba přístupy mají své výhody, ale že přesnější vyhledávání je něco, co klasiků mají tendenci chtít. Stručně řečeno, než zadáte cokoli do vyhledávacího pole, zeptejte se sami sebe, jaký druh vyhledávání je: vyhledávání slov nebo hledání metadat. Pokud hledáte metadata, najděte vhodné pole jinde ve vyhledávacím formuláři. Tip: kliknutím na tlačítka vedle vyhledávacích polí získáte vždy seznam svých možností.
proč se mé výsledky liší, když hledám jiný řecký korpus?
Několik důležitých rozdílů: nejdůležitější je, že korpus je pravděpodobně mnohem větší, než výběr zde nabízeny, a jejich texty jsou často novější ročník. Na druhou stranu, texty nemusí být disambiguated, takže dohady o frekvenci může být vždy na high-end a patří lemmata, které nejsou ve skutečnosti se vyskytují v textech, nebo ne se vyskytují s frekvencí tvrdil. Chtěli bychom vidět funkce vyhledávání podle part-of-speech, nebo podle zadaného atributu (např. reproduktor), a lepší využití rozebrat každej má v korpusu, ale jsme v pozici, vědět, co se děje za zavřenými dveřmi. Další otázky? Rád si povídám, samozřejmě.
Jak mohu tento web používat? Kam zmizely všechny vyhledávací formuláře?
Jeden typ reakce jsme slyšeli hodně o původní Perseus pod PhiloLogic místě bylo to, že hledání formy byly spíše zastrašující pro nováčka. Teď, když jsme tu už více než deset let, a s dobrými alternativami pro čtení textů, jako je krásný nový prohlížeč Scaife, vracíme se ke kořenům, dalo by se říci. Pokud hledáte primární texty a překlady, v horní části této stránky klikněte na řečtinu nebo latinu. Referenční práce lze nalézt v Logeionu; gramatiky mezi monografiemi.
texty a jejich překlady žijí ve stejných databázích. Můžete přejít z překladu na originál nebo si je přečíst vedle sebe kliknutím na odkazy („angličtina“, „řečtina“, „latina“). Pokud existuje více překladů, uvidíte „angličtina“ a „Angličtina2“. Pro ukázku typické návštěvy, zkontrolujte kroky v dřívější části této prezentace.
komentáře a monografie žijí ve dvou samostatných databázích. Do pole Název ve vyhledávacím formuláři zadejte starověkého autora nebo název a zjistěte, zda je pro konkrétní starověký text k dispozici komentář. Monografie zahrnují různé gramatiky. Na vyhledávací stránce monografií, existuje rychlé vyhledávací pole pro gramatické sekce, v souladu s tím, jak se tato díla obvykle citují v komentářích a ve třídách.
Chcete-li vyhledat slovo a jeho analýzu, klikněte na něj v řeckém a latinském textu. Objeví se okno, které také poskytne odkaz na Logeion, který vám ukáže slovo, jak se objevuje v celé sadě slovníků a referenčních prací, které máme k dispozici. Fulltextové vyhledávání zůstává k dispozici z vyhledávacích formulářů pro některé jednotlivé slovníky, přístupné z horní části této stránky.
jaký prohlížeč mám použít? Už nemůžu najít parsovací okno! Proč není moje naprosto normální slovo s akutním přízvukem nalezeno?
víme o uživatele s dobré zkušenosti na Linux, Ubuntu, Windows XP, Mac OS jako operační systémy; víme, že Opera, Firefox, a Safari byly úspěšně použity jako prohlížeče. Bohužel Internet Explorer není kompatibilní s naším mechanismem click-to-parse. Ve všech ostatních prohlížečích, které jsme testovali, by kliknutí na řecké nebo latinské slovo mělo mít za následek nové okno s informacemi o analýze a odkazy na slovníky. Následné kliknutí bude mít za následek to stejné analyzovat okno je ‚svěží‘; pokud nic nevidíte, je možné, že toto okno je skryté za vaše další prohlížeče(y). Pokud řecký nedokáže ukázat, jak řecká, ujistěte se, že váš prohlížeč umí poradit s UTF-8 kódování, a ke stažení nějaký Unicode font, který má řecké. Existuje spousta volných řeckých písem. Řezání a vkládání do textových procesorů by mělo být snadné. Ve většině případů byste měli být schopni psát slova, která hledáte, bez diakritiky (to také znamená: (Viz‘ Info & Help ‚ pro orientaci); nezapomeňte také vybrat odpovídající přepínač (‚no diacritics‘, ‚transliteration‘), když to uděláte.
Unicode zprávu, že je pravděpodobně příliš mnoho informací: snažíme se být konzistentní v použití pre-kombinovaná Unicode a vyhnout se nyní zastaralé znaky, které používají ‚oxia‘ spíše než kanonické ‚tonos kombinací). Pokud používáte řeckou vstupní metodu, která vytváří variantu „oxia“, zvažte zadání vyhledávání bez diakritiky, pokud jsou ve hře akutní akcenty, nebo instalaci vstupní metody, která dodržuje kanonickou praxi. Systém Mac OS X má vestavěný polytonický řecký vstup, který také splňuje tyto standardy.
co je to za morfologii? A co znamenají barvy?
na jaře 2008 jsme obdrželi grant ATI na vývoj morfologické analýzy řeckého korpusu a jeho vyhledávání. Můžete se dozvědět více o tomto projektu čtením abstraktů našich prezentací na toto téma nebo se podívat na tento velký plakát o tom, jak to bylo všechno dohromady. V novější prezentaci, představujeme průchod sady vyhledávání. Další podrobnosti o kódech části řeči naleznete v sekci „Info & Help “ ve vyhledávacích formulářích. Je důležité zdůraznit, že texty nebyly analyzovány ručně, takže bude mnoho chybných analýz. Doufáme, že nám pomůžete je opravit!
v typickém okně analýzy uvidíte jednu analýzu zvýrazněnou světle modrou barvou. Znamená to, že náš automatický značkovač řeči vybral tuto analýzu jako nejpravděpodobnější v kontextu. Uvidíte číslo (řekněme 0,45678) spojené s analýzou. To vyjadřuje pravděpodobnost, že systém (hloupý počítač, který neumí řecky stejně dobře jako vy!) spojuje s touto konkrétní analýzou. Části textů byly ručně označeny. Pokud narazíte na ručně označený formulář, bude mít zelenou barvu. Dokonce i tam, zadávání dat problémy mohou přijít, tak prosím, být kritický a zpráva (odeslat zprávu o problému formuláře přes odkaz v parse okna, pokud správné analýze není uveden) jakékoliv chyby, které najdete.
Jak mohu hledat morfologické atributy nebo lemmata?
Pokud chcete vyhledávat výskyty lemmatu nebo part-of-speech kód, můžete použít stejné pole pro vyhledávání jako pro normální slova (nebo „struny“), ale je prefix s ‚lemma:‘ nebo ‚pos:‘. Například „lemma:nostos „nebo“ lemma:sum“.
Nový: pomocí ‚ formuláře:“můžete ignorovat složitější pokyny pro kódy části řeči, které následují. Jednoduše napište, co si myslíte, že bude dostatečně popisovat formulář, který hledáte, v libovolném pořadí, ale použijte spojovníky mezi termíny. Například „form:optative-act-singular“ pro aktivní optative v singular, kde „form:sg-opt-act“ by udělal totéž.
kódy části řeči jsou méně jednoduché shrnout. Info & Nápověda sekce má rychlý úvod. Je důležité vědět, že zatímco úplná analýza představuje deset slotů, mnohé z nich budou prázdné (-), a ještě více vás v daném čase nebude zajímat. Všechny tyto můžete nechat nespecifikované s *, ale vaše formulace musí být dostatečně specifická, aby “ a “ definovalo akuzativ a ne aoristu. Za tímto účelem je užitečné znát uspořádání různých slotů. Jsou to:
1) hlavní část řeči: Sloveso, podstatné jméno, Přídavné Jméno, Zájmeno, částice (g), příslovce, číslovka, předložka, Spojka, Citoslovce;
2) menší část z projevu: : Článek nebo rozhodující (latina, idem, ipse), Osobní, Ukazovací, x: neurčitá, Tázací, Relativní, přivlastňovací, k: reflexivní, reciproční, správné;
3) člověk: 1, 2, 3;
4) číslo: singulár, plurál, dual;
5) čas: Přítomný, Průběhový, Aorist, peRfect, předminulý čas, Budoucí, předbudoucí;
6) nálada: Orientační, Konjunktiv, Optative, imperativ, infinitiv, Příčestí, Gerundive, gerundium, vleže na zádech;
7) hlas: Aktivní, Střední, Pasivní, střední-pasivní;
8) pohlaví: Mužský, Ženský, Střední, Společné;
9) případ: Nominativ, Genitiv, Dativ, Akuzativ, ablativ, Oslovení;
10) stupeň: srovnávací, Superlativní.
regulární výrazy budou do určité míry fungovat. Například, jeden by mohl pouze specifikovat ‚pos:*a -‚ zachytit obvinění. (Všechny sloty z 1 přes 8 jsou zde ponechány nespecifikované. Víme to, protože vyhledávací pole vždy vyžaduje úplné slovo a naše slovo jsme ukončili “ – “ a ne divokou kartou). Tato počáteční formulace by však postrádala obvinění, která jsou také komparativy nebo superlativy. Chcete-li je zahrnout, zkuste místo toho „pos:*a“. znamená „vyberte některou z položek xyz mezi závorkami“. Naopak, pokud člověk hledá osobní zájmena, může mít smysl používat pos: pp* bez dalších specifikací o slotech 3-8.
Part-of-speech a lemma vyhledávání lze kombinovat pomocí semi-tlustého střeva, nebo použít samostatně, s prostorem, pokud je určující různé slova: hledání ‚lemma:dokew;pos:v-3s.* pos:.* d – ‚ hledá formy δοκόω ve 3. jednotném čísle (středník) a Samostatně něco v dativu.
je to pravděpodobně stejně dobrý okamžik jako každý, kdo poukazuje na to, že náš analyzátor a náš vyhledávač neznají řeckou nebo dokonce latinskou syntaxi! Při vyhledávání tohoto druhu se budete muset rozhodnout, zda jsou dativy, které najdete, ve skutečnosti dativy, které se řídí slovesem.
Je to všechno poněkud ohromující? Uvědomujeme si, že vzorce vypadají poněkud zakazující! Pokud najdeme čas a financování, budeme pracovat na přirozenějším jazykovém dotazování (mohl bych prosím mít nějaké perfektní aktivní optáty?)nahradit „pos: v * roa*“.
tak co?
myslíme si, že tento korpus má velký příslib jak pro výzkum, tak pro výuku. Filologové musí dělat korpusové studium nad rámec jediného slova; konkrétněji, klasičtí lingvisté by měli pracovat na vytváření více důkazů a kvantitativních tvrzení, než se nachází ve velké části současné literatury. Učitelé, kteří si chtějí vybrat, co slovní zásobu nebo konstrukcí zdůraznit by měl mít představu o frekvenci používání, a spíše než vymýšlet příklady, by mohl spustit rychlé vyhledávání pro skutečné příklady staveb. Abychom uvedli jednoduchý příklad, tři definitivní články v pořadí nejsou neobvyklé. Nyní můžete najít skutečné příklady v Lysias, vhodném autorovi pro úvodní a střední třídy, aby to dokázal. Na praktickou poznámku pro učitele, pokud pošlete své třídě odkaz tohoto druhu, je na stránce zvýrazněn fenomén, který jste chtěli zvýraznit. Pokud chcete upozornit své studenty na určitou část stránky-vyhledejte ji a pošlete jim zkopírovanou adresu URL výsledku vyhledávání. Uvidí stejné zvýraznění.
skvělé! Jak mohu pomoci?
Jak si asi dokážete představit, existuje mnoho, mnoho kol do kola na tomto webu dělat to, co umí, a občas se něco ztratí v shuffle. Pokud uvidíte něco špatného, dejte nám prosím vědět. Zde je návod, jak nám můžete pomoci vylepšit tento web: pokud narazíte na problém, použijte odkaz „Nahlásit problém“, který najdete na stránkách s výsledky.
Uživatelská opravy pro konkrétní slovo nebo pasáž bude mít místní dopad v jejich kontextu, ale může ukazovat na více rozšířené problémy, takže mohou mít globální dopad na budoucí přesnost databáze jako celku.
okno parse má samostatný formulář hlášení problémů (v případě, že žádná z analýz není uspokojivá nebo krátká definice padá, dobře, krátká).
co když chci udělat víc?
tento projekt by nebyl možný bez open-source softwaru a dat sdílených pod licencí creative-commons. Pokud jste členem fakulty, zaměstnanci, student, nebo správce na vysoké škole, informujte se o otevřeném přístupu, otevřený obsah a Creative Commons. Podporujte principy, které zastupují, a pracujte pro změnu, kde můžete ve své vlastní instituci a profesních organizacích. Bez ohledu na příslušnost mohou klasičtí nadšenci podporovat organizace, které pracují s těmito principy. Můžete podpořit open-access a creative-commons orientované projekty, které se vám líbí. Pro klasiků, pár míst k návštěvě jako dobrý clearingové domy pro tento druh informace jsou Chuck Jones Starověkého Světa on-Line, Neel Smith je Vitruvian Design blogu, a stoa.org.
Úvěry
Hodně z programování na rok 2009 vydání bylo děláno jeden Klasiky BA sledují magisterský program v Počítačové Vědy (dobré množství dalších nekrytých práce určena klasiků pomáhá, stejně jako open-source software a pomoci jeho vývojáři). Chceme zaregistrovat naši vděčnost Úřadu probošta z University of Chicago za jeho ATI grant pro 2008-09. A samozřejmě i Richardu Velrybářovi za to, že ho stáhl! V desetiletí od roku, přírůstkové zlepšení Perseus a Logeion by nebylo možné bez podpory College na University of Chicago, od dean John Boyer politiky pro podporu fakulta projekty, na jeho brilantní vysokoškoláci. (Pokud jste aktuální undergrad, Pojď mě najít!)
je to všechno?
Závěrečná sestava lidí, kteří děkují za pomoc v uplynulém roce. Veškeré programování pro vydání v roce 2009 provedl Richard Whaling. Jsme, Richard a Helma, chci poděkovat našim disambiguators: Kristin Dean, Charlotte Krontiris, a Ursula Poole; Walt Shandruk, pro munging přes hromadu latinské dat na krátké oznámení, Perseus Projektu, pro sdílení údajů a odborných znalostí; Martin Mueller, za konzultace a zpřístupnění jeho Homeric údajů; a Hugh Cayless, pro to, aby náš život jednodušší, s jeho Transcoder. Děkujeme celému personálu ARTFL za přivítání klasiků uprostřed a velkorysé sdílení odborných znalostí, kofein, a veselí.
vydání 2018 značně těžilo z práce Waltera Shandruka. Když se díváme na implementaci modernějších nástrojů, žádáme vás o trpělivost s tímto starým stylem; myslíme si, že v něm stále má nějaký počet najetých kilometrů!
September 2018,
Helma Dik