GALE Phase 1 Arabic Newsgroup Parallel Text - Part 2数据集介绍,官网编号LDC2009T09
2026/6/6 13:27:36 网站建设 项目流程

LDC2009T09 是 LDC 于 2009 年发布的 GALE 项目子资源,为阿拉伯语 - 英语新闻组平行文本(Part 2),用于机器翻译与跨语言理解任务,适配 DARPA GALE 项目的阿拉伯语 - 英语翻译研究需求。以下是详细介绍:

基础信息

项目详情
发布机构Linguistic Data Consortium(LDC)
发布日期2009 年
语种对阿拉伯语(现代标准阿拉伯语 MSA 为主)- 英语
数据类型新闻组讨论文本及其人工英译,含句级对齐
数据规模约 16 万词(阿英各约 8 万词),与 Part 1(LDC2009T03)合计约 32 万词,覆盖政治、社会、文化等话题
数据来源阿拉伯语新闻组讨论帖(含用户原创与转帖)
标注内容句级对齐、文档元数据(来源、日期、作者 ID),无额外语言学标注(如词性、句法)
应用场景阿拉伯语 - 英语机器翻译(训练 / 开发)、双语词典构建、跨语言信息检索、平行语料库语言学研究
版权信息DARPA GALE 项目资助,LDC 版权,遵循 LDC 用户协议

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询