LDC2009T09 是 LDC 于 2009 年发布的 GALE 项目子资源,为阿拉伯语 - 英语新闻组平行文本(Part 2),用于机器翻译与跨语言理解任务,适配 DARPA GALE 项目的阿拉伯语 - 英语翻译研究需求。以下是详细介绍:
基础信息
| 项目 | 详情 |
|---|---|
| 发布机构 | Linguistic Data Consortium(LDC) |
| 发布日期 | 2009 年 |
| 语种对 | 阿拉伯语(现代标准阿拉伯语 MSA 为主)- 英语 |
| 数据类型 | 新闻组讨论文本及其人工英译,含句级对齐 |
| 数据规模 | 约 16 万词(阿英各约 8 万词),与 Part 1(LDC2009T03)合计约 32 万词,覆盖政治、社会、文化等话题 |
| 数据来源 | 阿拉伯语新闻组讨论帖(含用户原创与转帖) |
| 标注内容 | 句级对齐、文档元数据(来源、日期、作者 ID),无额外语言学标注(如词性、句法) |
| 应用场景 | 阿拉伯语 - 英语机器翻译(训练 / 开发)、双语词典构建、跨语言信息检索、平行语料库语言学研究 |
| 版权信息 | DARPA GALE 项目资助,LDC 版权,遵循 LDC 用户协议 |