由马克斯普朗克人类历史科学研究所领导的跨语言数据格式倡议(CLDF)成员组成的国际研究小组提出了一项关于跨语言数据格式的新指南的提案,以促进全球越来越多的大型语言数据库之间的共享和数据比较。此格式提供软件包,基本本体和用法示例。
全世界越来越多的语言数据库,为可能的比较研究提供了庞大网络的可能性。然而,这些数据库通常彼此独立地创建,并且通常具有独特且狭窄的焦点。这意味着用于编码数据的格式通常是不同的,这在有效地比较数据库中的数据方面造成了实际困难。
为了解决这些问题,创建了跨语言数据格式计划(CLDF)。在科学数据发表的一篇论文中,CLDF提出了语言数据库标准化格式的拟议指南,并提供了软件包,基本本体和最佳实践的使用示例。这项工作的目标是促进比较语言学中数据的共享和重用。
标准化数据格式以促进共享和重用
CLDF提供了一个基于其建议的数据模型,旨在简单而富有表现力,并基于之前为跨语言数据项目开发的数据模型。该模型有四个主要实体:(a)语言;(b)参数;(c)价值观;(d)来源。在模型中,每个Value都与参数和语言相关,并且可以基于多个Source。还有源的参考,参考也可以有上下文(例如,对于打印的参考将是页码)。
CLDF数据模型是一种包格式,其中数据集将由包含表的一组数据文件和定义表之间关系的描述性文件组成。每种语言数据类型都有一个CLDF模块和其他组件,这些组件将是模块中反复出现在多种数据类型中的数据的各个方面。CLDF模块还包含来自CLDF本体的术语。本体是一个词汇表,表示在比较语言学中具有众所周知语义的对象和属性。这使得用户可以以统一的方式引用这些术语。
用于启用验证和操作的软件包
CLDF规范使用广泛支持的常见文件格式(如CSV,JSON和BibTeX),目标是可以在许多平台上轻松读取和写入这些文件。更重要的是,标准化格式将允许没有编程技能的研究人员使用预先存在的工具访问和操作数据,而不是仅限于具有足够编程技能的研究人员创建自己的工具。为了实现这一点,CLDF创建了一个“cookbook”存储库,用于与CLDF规范一起使用的脚本。
“我们希望能够访问这些数据并将其与尽可能多的研究人员进行比较,”马克斯普朗克人类历史科学研究所的Johann-Mattis表示。CLDF倡议背后的推动力量之一Robert Forkel也指出,CLDF格式不仅仅局限于语言数据,还可以包含文化和地理数据的数据库。“CLDF可以极大地促进对语言和文化演变中语言,文化和环境因素之间相互作用问题的测试。”