开源！我知道你不知道，百度开源词法LAC 2.0帮你更懂中文

2022-11-14 18:32:17 网站UI设计 ℃

　　百度 NLP 权威发布，可能是最好用的中文词法分析工具——LAC 2.0闪亮登场！与 LAC 1.0相比，LAC 2.0在性能与效果上有明显提升，且多种开发语言，一键安装调用，更加快速便捷。

　　LAC 项目地址https://github.com/baidu/lac

　　LAC 是什么

　　LAC 全称 Lexical Analysis of Chinese，是百度 NLP（自然语言处理部）研发的一款词法分析工具，可实现中文分词、词性标注、专名识别等功能。

　　LAC 在分词、词性、专名识别的整体准确率超过90%，以专名识别为例，其效果要比同类词法分析工具提升10%以上。

　　例如：我知道你不知道，百度开源词法 LAC 帮你更懂中文！

　　LAC 2.0可以从语义合理性角度精确完成分词、词性标注和专名的一体化识别。

　　 LAC 2.0有哪些优势

　　自开源以来，LAC 得到了不少与好评。为了进一步提升厂内外开发者的使用体验，我们对 LAC 进行了新一轮全面升级，带来5大优势：

　　效果好：通过大规模语料自动标注和联合模型训练，整体效果业内领先。

　　通过前沿的深度学习模型 BiGRU-CRF，LAC 2.0可以联合学习分词、词性标注和实体识别这三个具有强关联性的任务，模型的整体效果 F1 值超过了0.91，词性标注 F1 值超过了0.94，专名识别 F1 值超过了0.85，效果对比业内其他开源工具达到了领先的水平。

　　同时，对于词法分析而言，OOV（新词，out of vocabulary）是当前模型效果提升最大的障碍，最有效的解决方法是增加数据量，但是人工标注数据需要巨大的人力成本。我们基于强大的 NLP 技术积累，通过自动标注生成大规模数据集，让模型可以学习到强大的泛化特征，并通过一定量的人工标注数据对模型进行修正。相较于仅用人工标注数据集进行模型训练，通过该方法训练得到的模型整体效果提升超过3%。

　　效率高：优化模型参数与性能，重构 C++ 调用代码，简化编译流程，性能提升约2倍。

　　与旧版本相比，LAC 2.0的效率得到较大的提升。通过精简模型参数，结合飞桨预测库的性能优化，LAC 2.0词法分析的 CPU 单线程性能优于其他主流工具（详细数据参考表4词性标注与实体识别性能评估）。

　　可定制：LAC 2.0可以实现简单可控的干预机制，能够精准匹配用户词典对模型进行干预，词典长片段形式，使得干预更为精准。

▲模型示意图

　　调用便捷：增加 Python 的 pip 一键安装，增加 Java 和 Android 的与调用。

　　LAC 1.0仅 C++ 和 Python，调用相对复杂有一定门槛。LAC 2.0则同时提供了 Java、android、C++ 和 Python 语言，重构相关代码，相比 LAC 1.0版本使用更便捷。同时，LAC 2.0一键安装，开发者可以实现快速调用和集成。

　　移动端：定制超轻量级模型，体积仅为 2M。

　　LAC 2.0在对 Android 应用的上，定制了一版超轻量级的模型，该模型的体积仅为 2M，在主流千元手机上测试单线程性能达到了200 QPS，能够满足大多数移动应用的需求，效果大幅超过了同等体积量级的模型。

　　LAC 2.0对比其他开源工具

　　分词效果

　　我们选择市面上流行的3款分词工具进行模型比较。并在 pku、msr、ctb、weibo 等多个开源数据集对模型效果进行评测，从结果上看，LAC 在不同数据集的分词效果均明显优于相关工具，平均分词错误至少降低38.5%，如下所示：

　　该表格列出的数据是通过各个工具提供的训练接口在不同开源数据集上进行微调训练得出。采用数据集微调训练后再评估，是因为目前分词结果并没有统一的标准，比如人名“张三”，MSR 数据集切分时会将其作为一个完整的单词，而工具 A 数据集标准则认为姓和名需要进行切分，故而会切分为“张三”。不同标准导致结果差异大，故而通过微调训练使得模型在一个分词标准下进行比较。

　　LAC 默认模型的分词标准偏向于实体粒度，会比其他开源工具的分词粒度更大一些，有需要的同学，可通过增量训练接口和定制接口快速实现模型微调和粒度迁移。

　　专名识别效果

　　标注任务中，我们以词法任务中难度最大的专名识别任务对 LAC 的效果进行评估，在开源的新闻实体识别数据集（MSRA）与简历实体识别数据集（Resume）上比较了 LAC 2.0与其他工具的效果差异：

▲ 表1 MSRA 专名效果评估