最新新闻
起亚电动SUV EV9升级,动力与软件得到全面提升 上汽大众新款SUV途岳正式上市,售价15.86-21.66万元 福特领衔投资45亿美元,将在印尼建立镍加工厂 主机厂召开座谈会,探讨国六B切换情况 特斯拉在墨西哥大举投资,助力其成为电动汽车大国 特斯拉推出版Giga啤酒,啤迷大喜过望 西安特斯拉中心车间揭秘,让你近距离了解制造 宝马、特斯拉等豪掷重金,墨西哥将成电动车大国 本田雅阁e:HEV亮相:能否成为雅阁救世主? 特斯拉中国首次败诉,需退一赔三 AI伦理员工大量裁减引发业界担忧,微软、谷歌等科技巨头被指责 AI过于强大,人类面临危险?马斯克、图灵奖得主呼吁暂停GPT-4模型后续研发 微软早期阶段将广告植入GPT-4版必应搜索 故意毁灭证据:美法庭对谷歌Play商店垄断诉讼开出罚单 元宇宙仍是未来,但实现需要时间——Meta重申在计算领域的地位 AI老板发出警告:无法解释的推理能力可能导致人类灭亡 监管机构开始对特斯拉Model X的问题展开调查 追溯OpenAI的历史,揭示其与马斯克的众多纷争 GitHub裁员,印度团队成最大受害者 微软与OpenAI强力结盟,共同致力于网络安全领域 AI视频素材来源不明,百度文心一言创作者面临版权风暴 OpenAI神秘CTO只有35岁,是ChatGPT之母 马斯克脑机接口公司开始寻找合作伙伴 推进人体试验 芝麻信用黑灰产生意:购买会员、薅羊毛可轻松提升信用分 比尔盖茨遭马斯克批评 AI 理解有限 AI越来越智能,你的工作还能保住吗?现实不容忽视 微软研究惊艳科学界:GPT-4能力接近人类,AI朝“天网”迈进? 推特泄露部分源代码,GitHub受命删除,安全问题引人担忧 谁在制造泰国游客流失的恐慌?真相揭秘 为何马斯克和OpenAI撕破脸了?马斯克为何实际控制被拒?
您的位置:首页 >要闻 >

用于跨语言研究的标准化数据格式指南

2019-04-08 17:21:37   来源:
导读 由马克斯普朗克人类历史科学研究所领导的跨语言数据格式倡议(CLDF)成员组成的国际研究小组提出了一项关于跨语言数据格式的新指南的提案,以

由马克斯普朗克人类历史科学研究所领导的跨语言数据格式倡议(CLDF)成员组成的国际研究小组提出了一项关于跨语言数据格式的新指南的提案,以促进全球越来越多的大型语言数据库之间的共享和数据比较。此格式提供软件包,基本本体和用法示例。

全世界越来越多的语言数据库,为可能的比较研究提供了庞大网络的可能性。然而,这些数据库通常彼此独立地创建,并且通常具有独特且狭窄的焦点。这意味着用于编码数据的格式通常是不同的,这在有效地比较数据库中的数据方面造成了实际困难。

为了解决这些问题,创建了跨语言数据格式计划(CLDF)。在科学数据发表的一篇论文中,CLDF提出了语言数据库标准化格式的拟议指南,并提供了软件包,基本本体和最佳实践的使用示例。这项工作的目标是促进比较语言学中数据的共享和重用。

标准化数据格式以促进共享和重用

CLDF提供了一个基于其建议的数据模型,旨在简单而富有表现力,并基于之前为跨语言数据项目开发的数据模型。该模型有四个主要实体:(a)语言;(b)参数;(c)价值观;(d)来源。在模型中,每个Value都与参数和语言相关,并且可以基于多个Source。还有源的参考,参考也可以有上下文(例如,对于打印的参考将是页码)。

CLDF数据模型是一种包格式,其中数据集将由包含表的一组数据文件和定义表之间关系的描述性文件组成。每种语言数据类型都有一个CLDF模块和其他组件,这些组件将是模块中反复出现在多种数据类型中的数据的各个方面。CLDF模块还包含来自CLDF本体的术语。本体是一个词汇表,表示在比较语言学中具有众所周知语义的对象和属性。这使得用户可以以统一的方式引用这些术语。

用于启用验证和操作的软件包

CLDF规范使用广泛支持的常见文件格式(如CSV,JSON和BibTeX),目标是可以在许多平台上轻松读取和写入这些文件。更重要的是,标准化格式将允许没有编程技能的研究人员使用预先存在的工具访问和操作数据,而不是仅限于具有足够编程技能的研究人员创建自己的工具。为了实现这一点,CLDF创建了一个“cookbook”存储库,用于与CLDF规范一起使用的脚本。

“我们希望能够访问这些数据并将其与尽可能多的研究人员进行比较,”马克斯普朗克人类历史科学研究所的Johann-Mattis表示。CLDF倡议背后的推动力量之一Robert Forkel也指出,CLDF格式不仅仅局限于语言数据,还可以包含文化和地理数据的数据库。“CLDF可以极大地促进对语言和文化演变中语言,文化和环境因素之间相互作用问题的测试。”

免责声明:本文由用户上传,如有侵权请联系删除!