用例:语言技术

From Semantic Web Standards

0 用例名称 语言技术 (牧羊者:范炜)

1 所有者

Felix Sasaki

2 背景与当前实践

2.1 语言技术应用于机器翻译、自动文摘、(网络)搜索、拼写检查等。 特别在机器翻译领域,近些年统计学方法(例如Google翻译)取得了很大进展。 这些方法依赖于大规模数据集。然而在用例应用领域并没有那么多数据可用。

2.2 对机器翻译和其他语言技术应用来说,基于规则的方法和混合使用多种方法得到重视。 在这些方法中,语言知识是成功关键。这些知识包含: 1.具体领域的术语和概念知识,有时提供几种语言或跨语种。 2.言语和注解的语料库依赖于这些知识。注解的语料库有时用于训练或验证统计应用,有时用于基于规则的应用。 3.语法

2.3 当前最有名、使用频率很高的语言技术资源当属WordNet。 这是一个词汇数据库,包含英文和对应的其他语种。 WordNet用于词义消歧、指代消解、信息检索(包括跨语言)、文档分类等。 WordNet也有各类RDF表征可用,这些显示了关联数据应用的潜力。

2.4 不仅是WordNet,Web上的其他资源也可以用于类似的应用场景。 特别是通过图书馆建模、表达的知识(例如,规范文档)还没有充分应用语言技术。 最近越来越多的规范文档被发布为关联数据。 这些资源是语言技术的重要输入,不是被“硬编码”到一个应用中,而是作为分布式资源,通过Web本身更新和改进。

3 目标

3.1 语言技术在关联数据应用的一般需求

3.1.1 数据表征与服务

语言技术应用对关联数据可用性的需求是什么?

3.1.2 语言技术服务如何将关联数据考虑在内?

3.2 图书馆关联数据的具体贡献

3.2.1 图书馆关联数据可用的术语/概念关系类型对哪些语言技术应用是有用的?

3.2.2 图书馆关联数据能对那些不适合纯粹统计语言技术方法的跨语种应用做些什么?

3.2.3 图书馆关联数据怎样与其他大型关联数据资源(例如DBPedia)进行集成?

4 用例场景

4.1 为评估图书馆关联数据用于语言技术的有用性,首先关注一个具体用例很重要, 这就是在单一语种和潜在跨语种的命名实体识别(NER)。

4.2 传统NER方法是地名词典(gazetteer)的应用,这是一个有关地名、人名和机构名的词典。 这种方法的缺点是很难保持最新状态,另一个问题是跨语种地名词典的可持续创建。

5 用例的关联数据应用

5.1 关联数据能帮助解决NER的两个问题 1. 持续更新/与时俱进 2. 跨语种

5.2 DBPedia资源已经用在单语种和链接到其他语种的地名词典创建试点项目。 DBPedia和其他资源中命名实体的异质质量需要考虑。

5.3 当前像WordNet这样被用于许多语言技术应用的资源以集中化方式开发是有缺陷的, 它们没有聚焦于命名(具体“实例”条目),而不是通用的“概念”条目。 谨慎选择的关联数据资源集包括WordNets,但不局限于此,能提供不同语种间的NER两个问题的解决方案。

6 已有工作

Muddy使用从DBpedia中抽取的命名实体,此用例与Muddy的区别在于关注从图书馆数据中抽取命名实体。两者的应用具有很好的类比性

7 问题与局限

l 关联数据哪些类型对NER有用?任务、地点、地区等?

l 不同语种的类型类别的综合:英文和日文中的一条街?

l 高质量小规模资源和异质质量大规模资源在同一应用中的综合

l “与时俱进”方式的可扩展性,集成到一个语言技术处理管道,潜在的跨技术堆栈(如,基于RDF>XML的WebService)。