最新新闻
新的数学桥梁全息和twistor理论 什么是年金率以及年金如何运作 即使在大型场景中 新的水模拟也能捕捉到细节 科学家使用人工神经网络来预测新的稳定材料 Eagle Materials公司就战略审查计划进行了攀登 接下来的无线通信 计算机芯片本身 为无线传感器网络绘制未来之路 Technologies在明显错误的身份中飙升50,000% 新的无线互联网技术 基于位置的服务协议 紧急链接 确定隧道中无线电的“甜点” Cadence Design Systems预计每股盈利49美分 新的无线标准承诺超快速媒体应用 扎克伯格可能面临Facebook数据泄露的制裁 开发用于动态监测的八通道无线脑电系统 Freeport McMoRan正在进入牛市模式 家庭不再需要充满电缆 我们也不再需要与复杂的技术设备作斗争 Acreage Holdings集团获得了34亿美元的收益 “超宽带”可能是医疗监控的未来 您的无线路由器可以在紧急情况下拯救生命 随着股价的上涨黑石首席执行官施瓦茨曼在一天内创造了5.73亿美元 将未使用的电视频率转换为无线宽带 新的无线网络将彻底改变土壤测试 Jim Cramer如何在交易的第二天玩Pinterest 合并天线和电子设备可提高能源和频谱效率 Zoom以纳斯达克首次亮相每股65美元优惠价81% 智能电路数据传输的世界纪录 台湾半导体的乐观前景是芯片股 报告显示了VPN服务中的IPv6弱点 地平线上的高灵敏度微传感器 股票因强劲的零售销售报告和大多数积极的收益而告终
您的位置:首页 >要闻 >

用于跨语言研究的标准化数据格式指南

2019-04-08 17:21:37   来源:

由马克斯普朗克人类历史科学研究所领导的跨语言数据格式倡议(CLDF)成员组成的国际研究小组提出了一项关于跨语言数据格式的新指南的提案,以促进全球越来越多的大型语言数据库之间的共享和数据比较。此格式提供软件包,基本本体和用法示例。

全世界越来越多的语言数据库,为可能的比较研究提供了庞大网络的可能性。然而,这些数据库通常彼此独立地创建,并且通常具有独特且狭窄的焦点。这意味着用于编码数据的格式通常是不同的,这在有效地比较数据库中的数据方面造成了实际困难。

为了解决这些问题,创建了跨语言数据格式计划(CLDF)。在科学数据发表的一篇论文中,CLDF提出了语言数据库标准化格式的拟议指南,并提供了软件包,基本本体和最佳实践的使用示例。这项工作的目标是促进比较语言学中数据的共享和重用。

标准化数据格式以促进共享和重用

CLDF提供了一个基于其建议的数据模型,旨在简单而富有表现力,并基于之前为跨语言数据项目开发的数据模型。该模型有四个主要实体:(a)语言;(b)参数;(c)价值观;(d)来源。在模型中,每个Value都与参数和语言相关,并且可以基于多个Source。还有源的参考,参考也可以有上下文(例如,对于打印的参考将是页码)。

CLDF数据模型是一种包格式,其中数据集将由包含表的一组数据文件和定义表之间关系的描述性文件组成。每种语言数据类型都有一个CLDF模块和其他组件,这些组件将是模块中反复出现在多种数据类型中的数据的各个方面。CLDF模块还包含来自CLDF本体的术语。本体是一个词汇表,表示在比较语言学中具有众所周知语义的对象和属性。这使得用户可以以统一的方式引用这些术语。

用于启用验证和操作的软件包

CLDF规范使用广泛支持的常见文件格式(如CSV,JSON和BibTeX),目标是可以在许多平台上轻松读取和写入这些文件。更重要的是,标准化格式将允许没有编程技能的研究人员使用预先存在的工具访问和操作数据,而不是仅限于具有足够编程技能的研究人员创建自己的工具。为了实现这一点,CLDF创建了一个“cookbook”存储库,用于与CLDF规范一起使用的脚本。

“我们希望能够访问这些数据并将其与尽可能多的研究人员进行比较,”马克斯普朗克人类历史科学研究所的Johann-Mattis表示。CLDF倡议背后的推动力量之一Robert Forkel也指出,CLDF格式不仅仅局限于语言数据,还可以包含文化和地理数据的数据库。“CLDF可以极大地促进对语言和文化演变中语言,文化和环境因素之间相互作用问题的测试。”