TARSQI 프로젝트 개요

Transcription

TARSQI 프로젝트 개요
TARSQI 프로젝트 개요
한국어 TARSQI 세미나
유현조
2008년 10월 10일
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
1 / 34
차례
1
TimeML.org
2
TimeML
3
TARSQI
4
TANGO
5
TERQAS
6
Corpora
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
2 / 34
TimeML.org
차례
1
TimeML.org
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
3 / 34
TimeML.org
TimeML.org
TimeML.org [http://www.timeml.org] 메뉴 구성
Specifications : TimeML 명세, 주석 가이드라인, DTD
TARSQI : TimeML 자동 태깅 도구
TANGO : TimeML 주석 작업 보조 도구
TERQAS : 워크샵 관련 자료
Corpora : TimeML 주석 말뭉치
Publications
Time 2006
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
4 / 34
TimeML
차례
2
TimeML
Specifications
Guidelines
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
5 / 34
TimeML
Specifications
TimeML Specifications
Version 1.2.1
TimeML 1.2.1 Specifications [HTML]
TimeML 태그들에 관한 형식화와 간단한 예제
TimeML 1.2.1 Annotation Guidelines [PDF]
TimeML 태그에 관한 해설과 주석 방법에 대한 가이드라인
TimeML 1.2.1 DTD (Document Type Definition)
TimeML 주석 말뭉치의 문서 유형 정의 파일
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
6 / 34
TimeML
Specifications
TimeML 1.2.1 Specifications
TimeML Tags
1
<EVENT>: 의미적 사건을 표지. 동사에 해당.
2
<MAKEINSTANCE>: 주어진 한 사건의 서로 다른 인스턴스 지시.
(현재 사용되지 않음)
3
<TIMEX3>: 명시적 시간 표현을 표지.
4
<SIGNAL>: 텍스트의 구획에 대한 주석.
5
<TLINK>: (temporal link) 두 시간 요소 사이의 관계 표지.
6
<SLINK>: (subordination link) modality, evidentails, factives
7
<ALINK>: (aspectual link) 두 사건 사이의 상적 연결 표지.
8
<CONFIDENCE>: 주석의 정확성에 대한 자신감 척도 표시.
9
<TimeML>: TimeML 최상위 노드.
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
7 / 34
TimeML
Guidelines
TimeML Annotation Guidelines Version 1.2.1
기본 태그: 언어 표현에 부착되는 태그
1
<EVENT> : 사건 (전형적으로는 동사)
attributes ::= eid class
class ::= ”OCCURENCE”, ”PERCEPTION”, ”REPORTING”, ”ASPECTUAL”,
”STATE”, ”I STATE”, ”I ACTION”
2
<TIMEX3>: 시간 표현 (전형적으로는 부사)
attributes ::= tid type
type ::= ”DATE” | ”TIME” | ”DURATION” | ”SET”
3
<SIGNAL>: 텍스트 구획 (전형적으로는 전치사와 접속사)
attributes ::= sid
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
8 / 34
TimeML
Guidelines
TimeML Annotation Guidelines Version 1.2.1
링크 태그: EVENT와 TEMEX3의 관계를 표지
1
<TLINK>: (temporal) 사건들과 시간 표현들 사이의 관계
John taught e1 last week t1 on Monday t2.
is included(e1,t1)
is included(t1,t2)
2
<SLINK>: (subordination) 주절 사건과 종속절 사건의 관계
Bill denied e1 that John taught e2 on Monday.
3
neg evidential(e1,e2)
<ALINK>: (aspectual) 상 동사와 (본동사의) 사건의 관계
The boat began e1 to sink e2.
한국어 TARSQI 세미나 (유현조)
initiates(e1,e2)
TARSQI
2008-10-10
9 / 34
TARSQI
차례
3
TARSQI
TARSQI Project
Objectives
Components
Architecture
Tarsqi Toolkit
Components
Prerequisites
Installation
TTK Demo
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
10 / 34
TARSQI
TARSQI Project
TARSQI Project: Objectives
Temporal Awareness and Reasoning System for Question Interpretation
Objectives
Develop technology for annotating temporal information in natural
language text,
1
extracting temporal information from text,
and reasoning about temporal information
Make technology available for use in improved question-answering in
2
AQUAINTa , as well as for embedding in analyst toolkits.
Integrate tools with AQUAINT testbed
3
a
http://www-nlpir.nist.gov/projects/aquaint
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
11 / 34
TARSQI
TARSQI Project
TARSQI Project: Components
주요 구성 요소
1
GUTime : (Georgetwon University) extraction of time expressions
2
Evita : (Event in Text Analyzer) event extraction
3
SlinkET : (SLINK Events in Text) partial modal parsing
4
GUTenLINK : TLINK tagger
5
S2T : (SLINK to TLINK) temporal repercussions of modal relations
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
12 / 34
TARSQI
TARSQI Project
TARSQI Project: Architecture
Overall system architecture (Verhagen et al., 2005)
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
13 / 34
TARSQI
Tarsqi Toolkit
The Tarsqi Toolkit: Components
Components
1
GUTime : (Georgetwon University) extraction of time expressions
2
Evita : (Event in Text Analyzer) event extraction
3
SlinkET : (SLINK Events in Text) partial modal parsing
4
S2T : (SLINK to TLINK) temporal repercussions of modal relations
5
Blinker : parsing of temporal relations (based on GUTenLINK)
6
Classifier : MaxEnt classifier trained on TimeBank
7
Sputlink : constraint propagation (aka temporal closure)
8
Link Merger : uses Sputlink to ensure consistency of all relations
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
14 / 34
TARSQI
Tarsqi Toolkit
The Tarsqi Toolkit: Prerequisites
사용 환경
Linux or Mac OS X
Python 2.3 and Perl 5.8
XML::Parser Perl module
wxPython package for GUI
Windows 사용자의 경우
Windows용 설치 버전 없음. 조만간 제공 예정.
cross-platform하게 작성되었으므로 실행에는 문제 없음.
Python, Perl, Java 등 필요한 요소들 모두 설치해야 함.
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
15 / 34
TARSQI
Tarsqi Toolkit
The Tarsqi Toolkit: Installation
설치 방법
1
압축 해제
2
TreeTagger 설치
설치경로: ttk-1.0/code/components/preprocessing/treetagger/
TreeTagger
[http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/]
다운로드
tagger package
tagging scripts
install-tagger.sh
parameter file
sh install-tagger.sh
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
16 / 34
TARSQI
TTK Demo
TTK Demo: Load File
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
17 / 34
TARSQI
TTK Demo
TTK Demo: View Results
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
18 / 34
TARSQI
TTK Demo
TTK Demo: Graph (TANGO)
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
19 / 34
TARSQI
TTK Demo
TTK Demo: TBOX (TANGO)
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
20 / 34
TANGO
차례
4
TANGO
TANGO Project
Annotation Tool
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
21 / 34
TANGO
TANGO Project
TANGO Project
TimeML Annotation Graphical Organizer
An ARDA Workshop on Advanced Question Answering Technology
April–June, 2003
James Pustejovsky & Inderjeet Mani, Organizers
Objectives
Create a graphical annotation tool for dense annotation tasks;
Embed an interactive closure algorithm into the annotation
environment, which helps compute event and temporal relationships
automatically.
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
22 / 34
TANGO
TANGO Project
TANGO Project
문제와 구체 목표
Inconsistency 그래픽 주석 작업 환경에서 쉽게 오류를 표시할 수
있다.
Density 텍스트 주석을 그래픽으로 바꾸어 링크 분석 시 주석
작업자들의 인지적 부담을 덜어준다.
Speed 대량 전처리 후 사람이 관여하는 후처리로 속도를 높힌다.
Relevance 다른 연구 성과들과 연결되도록 한다.
Invalid Annotation well-formed XML만 생산하도록 디자인한다.
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
23 / 34
TANGO
Annotation Tool
TANGO: Annotation Tool
Callisto
유니코드 지원
언어 자료 주석을 위한 범용 도구
Java 1.4
다운로드: http://callisto.mitre.org
TANGO
TimeML Annotation Graphical Organizer
TimeML을 사건/시간 표현 주석의 표준으로 만들기 위한 인프라
Callisto에 통합 또는 완전 독립하려는 장기 목표 아래 개발
그래픽 주석 도구와 자동화 도구 제공
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
24 / 34
TERQAS
차례
5
TERQAS
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
25 / 34
TERQAS
TERQAS
Query Corpus WG
Articles from which temporal questions have been generated
Collection of sample queries
Draft Template for Temporal Question Taxonomy
Final Templates for Temporal Question Classification
Corpus WG
Using TimeML in QA Systems
Using Timestamping Events with TimeML: Challenges
Description of TimeBank Corpus
TIMEX expressions in the corpora
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
26 / 34
Corpora
차례
6
Corpora
TimeML Corpora
TimeBank Browser
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
27 / 34
Corpora
TimeML Corpora
Corpora
TimeBank 1.2
183개 뉴스 기사. 61,000 토큰. 약 8,000개 사건. 1,400개 시간 표현.
AQUAINT TimeML Corpus
73개 뉴스 리포트 문서. TimeBank 1.2와 유사.
TempEval Corpus
시간 관계 자동 추출 작업 평가에 관련된 말뭉치: training, test, evalution
data.
TimeBank 1.1
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
28 / 34
Corpora
TimeBank Browser
TimeBank 1.2 Browser: Home
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
29 / 34
Corpora
TimeBank Browser
TimeBank 1.2 Browser: Events
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
30 / 34
Corpora
TimeBank Browser
TimeBank 1.2 Browser: Timexes
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
31 / 34
Corpora
TimeBank Browser
TimeBank 1.2 Browser: Signals
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
32 / 34
Corpora
TimeBank Browser
TimeBank 1.2 Browser: Queries
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
33 / 34
Corpora
TimeBank Browser
참고문헌
Roser Saurı́, Jessica Littman, Bob Knippen, Robert Gaizauskas, Andrea
Setzer, and James Pustejovsky. 2006. TimeML Annotation Guidelines
Version 1.2.1.
Marc Verhagen, Inderjeet Mani, Roser Sauri, Robert Knippen, Seok Bae
Jang, Jessica Littmann, Anna Rumshisky, John Phillips, and James
Pustejovsky. 2005. Automating Temporal Annotation with TARSQI.
Proceedings of ACL 2005.
Marc Verhagen. 2005. Temporal Closure in an Annotation Environment.
Language Resources and Evaluation.
한국어 TARSQI 세미나 (유현조)
TARSQI
2008-10-10
34 / 34

Similar documents