TARSQI 프로젝트 개요
Transcription
TARSQI 프로젝트 개요
TARSQI 프로젝트 개요 한국어 TARSQI 세미나 유현조 2008년 10월 10일 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 1 / 34 차례 1 TimeML.org 2 TimeML 3 TARSQI 4 TANGO 5 TERQAS 6 Corpora 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 2 / 34 TimeML.org 차례 1 TimeML.org 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 3 / 34 TimeML.org TimeML.org TimeML.org [http://www.timeml.org] 메뉴 구성 Specifications : TimeML 명세, 주석 가이드라인, DTD TARSQI : TimeML 자동 태깅 도구 TANGO : TimeML 주석 작업 보조 도구 TERQAS : 워크샵 관련 자료 Corpora : TimeML 주석 말뭉치 Publications Time 2006 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 4 / 34 TimeML 차례 2 TimeML Specifications Guidelines 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 5 / 34 TimeML Specifications TimeML Specifications Version 1.2.1 TimeML 1.2.1 Specifications [HTML] TimeML 태그들에 관한 형식화와 간단한 예제 TimeML 1.2.1 Annotation Guidelines [PDF] TimeML 태그에 관한 해설과 주석 방법에 대한 가이드라인 TimeML 1.2.1 DTD (Document Type Definition) TimeML 주석 말뭉치의 문서 유형 정의 파일 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 6 / 34 TimeML Specifications TimeML 1.2.1 Specifications TimeML Tags 1 <EVENT>: 의미적 사건을 표지. 동사에 해당. 2 <MAKEINSTANCE>: 주어진 한 사건의 서로 다른 인스턴스 지시. (현재 사용되지 않음) 3 <TIMEX3>: 명시적 시간 표현을 표지. 4 <SIGNAL>: 텍스트의 구획에 대한 주석. 5 <TLINK>: (temporal link) 두 시간 요소 사이의 관계 표지. 6 <SLINK>: (subordination link) modality, evidentails, factives 7 <ALINK>: (aspectual link) 두 사건 사이의 상적 연결 표지. 8 <CONFIDENCE>: 주석의 정확성에 대한 자신감 척도 표시. 9 <TimeML>: TimeML 최상위 노드. 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 7 / 34 TimeML Guidelines TimeML Annotation Guidelines Version 1.2.1 기본 태그: 언어 표현에 부착되는 태그 1 <EVENT> : 사건 (전형적으로는 동사) attributes ::= eid class class ::= ”OCCURENCE”, ”PERCEPTION”, ”REPORTING”, ”ASPECTUAL”, ”STATE”, ”I STATE”, ”I ACTION” 2 <TIMEX3>: 시간 표현 (전형적으로는 부사) attributes ::= tid type type ::= ”DATE” | ”TIME” | ”DURATION” | ”SET” 3 <SIGNAL>: 텍스트 구획 (전형적으로는 전치사와 접속사) attributes ::= sid 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 8 / 34 TimeML Guidelines TimeML Annotation Guidelines Version 1.2.1 링크 태그: EVENT와 TEMEX3의 관계를 표지 1 <TLINK>: (temporal) 사건들과 시간 표현들 사이의 관계 John taught e1 last week t1 on Monday t2. is included(e1,t1) is included(t1,t2) 2 <SLINK>: (subordination) 주절 사건과 종속절 사건의 관계 Bill denied e1 that John taught e2 on Monday. 3 neg evidential(e1,e2) <ALINK>: (aspectual) 상 동사와 (본동사의) 사건의 관계 The boat began e1 to sink e2. 한국어 TARSQI 세미나 (유현조) initiates(e1,e2) TARSQI 2008-10-10 9 / 34 TARSQI 차례 3 TARSQI TARSQI Project Objectives Components Architecture Tarsqi Toolkit Components Prerequisites Installation TTK Demo 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 10 / 34 TARSQI TARSQI Project TARSQI Project: Objectives Temporal Awareness and Reasoning System for Question Interpretation Objectives Develop technology for annotating temporal information in natural language text, 1 extracting temporal information from text, and reasoning about temporal information Make technology available for use in improved question-answering in 2 AQUAINTa , as well as for embedding in analyst toolkits. Integrate tools with AQUAINT testbed 3 a http://www-nlpir.nist.gov/projects/aquaint 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 11 / 34 TARSQI TARSQI Project TARSQI Project: Components 주요 구성 요소 1 GUTime : (Georgetwon University) extraction of time expressions 2 Evita : (Event in Text Analyzer) event extraction 3 SlinkET : (SLINK Events in Text) partial modal parsing 4 GUTenLINK : TLINK tagger 5 S2T : (SLINK to TLINK) temporal repercussions of modal relations 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 12 / 34 TARSQI TARSQI Project TARSQI Project: Architecture Overall system architecture (Verhagen et al., 2005) 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 13 / 34 TARSQI Tarsqi Toolkit The Tarsqi Toolkit: Components Components 1 GUTime : (Georgetwon University) extraction of time expressions 2 Evita : (Event in Text Analyzer) event extraction 3 SlinkET : (SLINK Events in Text) partial modal parsing 4 S2T : (SLINK to TLINK) temporal repercussions of modal relations 5 Blinker : parsing of temporal relations (based on GUTenLINK) 6 Classifier : MaxEnt classifier trained on TimeBank 7 Sputlink : constraint propagation (aka temporal closure) 8 Link Merger : uses Sputlink to ensure consistency of all relations 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 14 / 34 TARSQI Tarsqi Toolkit The Tarsqi Toolkit: Prerequisites 사용 환경 Linux or Mac OS X Python 2.3 and Perl 5.8 XML::Parser Perl module wxPython package for GUI Windows 사용자의 경우 Windows용 설치 버전 없음. 조만간 제공 예정. cross-platform하게 작성되었으므로 실행에는 문제 없음. Python, Perl, Java 등 필요한 요소들 모두 설치해야 함. 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 15 / 34 TARSQI Tarsqi Toolkit The Tarsqi Toolkit: Installation 설치 방법 1 압축 해제 2 TreeTagger 설치 설치경로: ttk-1.0/code/components/preprocessing/treetagger/ TreeTagger [http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/] 다운로드 tagger package tagging scripts install-tagger.sh parameter file sh install-tagger.sh 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 16 / 34 TARSQI TTK Demo TTK Demo: Load File 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 17 / 34 TARSQI TTK Demo TTK Demo: View Results 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 18 / 34 TARSQI TTK Demo TTK Demo: Graph (TANGO) 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 19 / 34 TARSQI TTK Demo TTK Demo: TBOX (TANGO) 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 20 / 34 TANGO 차례 4 TANGO TANGO Project Annotation Tool 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 21 / 34 TANGO TANGO Project TANGO Project TimeML Annotation Graphical Organizer An ARDA Workshop on Advanced Question Answering Technology April–June, 2003 James Pustejovsky & Inderjeet Mani, Organizers Objectives Create a graphical annotation tool for dense annotation tasks; Embed an interactive closure algorithm into the annotation environment, which helps compute event and temporal relationships automatically. 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 22 / 34 TANGO TANGO Project TANGO Project 문제와 구체 목표 Inconsistency 그래픽 주석 작업 환경에서 쉽게 오류를 표시할 수 있다. Density 텍스트 주석을 그래픽으로 바꾸어 링크 분석 시 주석 작업자들의 인지적 부담을 덜어준다. Speed 대량 전처리 후 사람이 관여하는 후처리로 속도를 높힌다. Relevance 다른 연구 성과들과 연결되도록 한다. Invalid Annotation well-formed XML만 생산하도록 디자인한다. 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 23 / 34 TANGO Annotation Tool TANGO: Annotation Tool Callisto 유니코드 지원 언어 자료 주석을 위한 범용 도구 Java 1.4 다운로드: http://callisto.mitre.org TANGO TimeML Annotation Graphical Organizer TimeML을 사건/시간 표현 주석의 표준으로 만들기 위한 인프라 Callisto에 통합 또는 완전 독립하려는 장기 목표 아래 개발 그래픽 주석 도구와 자동화 도구 제공 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 24 / 34 TERQAS 차례 5 TERQAS 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 25 / 34 TERQAS TERQAS Query Corpus WG Articles from which temporal questions have been generated Collection of sample queries Draft Template for Temporal Question Taxonomy Final Templates for Temporal Question Classification Corpus WG Using TimeML in QA Systems Using Timestamping Events with TimeML: Challenges Description of TimeBank Corpus TIMEX expressions in the corpora 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 26 / 34 Corpora 차례 6 Corpora TimeML Corpora TimeBank Browser 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 27 / 34 Corpora TimeML Corpora Corpora TimeBank 1.2 183개 뉴스 기사. 61,000 토큰. 약 8,000개 사건. 1,400개 시간 표현. AQUAINT TimeML Corpus 73개 뉴스 리포트 문서. TimeBank 1.2와 유사. TempEval Corpus 시간 관계 자동 추출 작업 평가에 관련된 말뭉치: training, test, evalution data. TimeBank 1.1 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 28 / 34 Corpora TimeBank Browser TimeBank 1.2 Browser: Home 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 29 / 34 Corpora TimeBank Browser TimeBank 1.2 Browser: Events 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 30 / 34 Corpora TimeBank Browser TimeBank 1.2 Browser: Timexes 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 31 / 34 Corpora TimeBank Browser TimeBank 1.2 Browser: Signals 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 32 / 34 Corpora TimeBank Browser TimeBank 1.2 Browser: Queries 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 33 / 34 Corpora TimeBank Browser 참고문헌 Roser Saurı́, Jessica Littman, Bob Knippen, Robert Gaizauskas, Andrea Setzer, and James Pustejovsky. 2006. TimeML Annotation Guidelines Version 1.2.1. Marc Verhagen, Inderjeet Mani, Roser Sauri, Robert Knippen, Seok Bae Jang, Jessica Littmann, Anna Rumshisky, John Phillips, and James Pustejovsky. 2005. Automating Temporal Annotation with TARSQI. Proceedings of ACL 2005. Marc Verhagen. 2005. Temporal Closure in an Annotation Environment. Language Resources and Evaluation. 한국어 TARSQI 세미나 (유현조) TARSQI 2008-10-10 34 / 34