From fd776fbc4711dd3857f60015e31370cf58e3fa42 Mon Sep 17 00:00:00 2001 From: xxl <505279206@qq.com> Date: Thu, 21 Nov 2024 20:54:46 +0800 Subject: [PATCH] first commkit --- README.md | 717 ++++++++++++++++++++++++++++++- all.md5 | 10 + assets/oneke.gif | Bin 0 -> 2774245 bytes assets/oneke_logo.png | Bin 0 -> 313798 bytes assets/oneke_results.png | Bin 0 -> 154130 bytes assets/supervision_ee.jpg | Bin 0 -> 190818 bytes assets/supervision_ner.jpg | Bin 0 -> 156650 bytes assets/supervision_re.jpg | Bin 0 -> 94347 bytes assets/zero_en.jpg | Bin 0 -> 137236 bytes assets/zero_zh.jpg | Bin 0 -> 150738 bytes config.json | 26 ++ configuration.json | 1 + pytorch_model-00001-of-00003.bin | 3 + pytorch_model-00002-of-00003.bin | 3 + pytorch_model-00003-of-00003.bin | 3 + pytorch_model.bin.index.json | 370 ++++++++++++++++ special_tokens_map.json | 24 ++ tokenizer.model | 3 + tokenizer_config.json | 35 ++ 19 files changed, 1193 insertions(+), 2 deletions(-) create mode 100644 all.md5 create mode 100644 assets/oneke.gif create mode 100644 assets/oneke_logo.png create mode 100644 assets/oneke_results.png create mode 100644 assets/supervision_ee.jpg create mode 100644 assets/supervision_ner.jpg create mode 100644 assets/supervision_re.jpg create mode 100644 assets/zero_en.jpg create mode 100644 assets/zero_zh.jpg create mode 100644 config.json create mode 100644 configuration.json create mode 100644 pytorch_model-00001-of-00003.bin create mode 100644 pytorch_model-00002-of-00003.bin create mode 100644 pytorch_model-00003-of-00003.bin create mode 100644 pytorch_model.bin.index.json create mode 100644 special_tokens_map.json create mode 100644 tokenizer.model create mode 100644 tokenizer_config.json diff --git a/README.md b/README.md index 7c9de27..12c6d63 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,716 @@ -# OneKE_a13673072524128256336778 +--- +frameworks: +- Pytorch +license: Apache License 2.0 +tasks: +- universal-information-extraction + +model-type: +- llama + +domain: +- nlp + +language: +- cn +- en + +metrics: +- F1 + +tags: +- instruction-tuned +--- + + +
+
+ + + +中英双语大模型知识抽取框架
+ + +- [什么是OneKE?](#什么是oneke) +- [OneKE是怎么训的?](#oneke是怎么训的) +- [快速上手OneKE](#快速上手oneke) + - [快速运行](#快速运行) +- [专业使用OneKE](#专业使用oneke) + - [OneKE指令格式](#oneke指令格式) + - [OneKE指令格式转换](#oneke指令格式转换) + - [定制化schema解释指令](#定制化schema解释指令) + - [定制化example示例指令](#定制化example示例指令) +- [评估](#评估) +- [继续训练](#继续训练) +- [局限性](#局限性) +- [项目贡献人员](#项目贡献人员) +- [学术指导组](#学术指导组) +- [引用](#引用) + + +## 什么是OneKE? + +OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE以开源形式贡献给OpenKG开放知识图谱社区。 + + +基于非结构化文档的知识构建一直是知识图谱大规模落地的关键难题之一,因为真实世界的信息高度碎片化、非结构化,大语言模型在处理信息抽取任务时仍因抽取内容与自然语言表述之间的巨大差异导致效果不佳,自然语言文本信息表达中因隐式、长距离上下文关联存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。针对上述问题,蚂蚁集团与浙江大学依托多年积累的知识图谱与自然语言处理技术,联合构建和升级蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架OneKE,同时开源基于Chinese-Alpaca-2-13B全参数微调的版本。测评指标显示,OneKE在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果。 + +统一知识抽取框架有比较广阔的应用场景,可大幅降低领域知识图谱的构建成本。通过从海量的数据中萃取结构化知识,构建高质量知识图谱并建立知识要素间的逻辑关联,可以实现可解释的推理决策,也可用于增强大模型缓解幻觉并提升稳定性,加速大模型垂直领域的落地应用。如应用在医疗领域通过知识抽取实现医生经验的知识化规则化管理,构建可控的辅助诊疗和医疗问答。应用在金融领域抽取金融指标、风险事件、因果逻辑及产业链等,实现自动的金融研报生成、风险预测、产业链分析等。应用在政务场景实现政务法规的知识化,提升政务服务的办事效率和准确决策。 + + + + +## OneKE是怎么训的? + +OneKE目前的开源模型版本提供了基于Schema的可泛化信息抽取。由于现有的抽取指令数据存在格式不统一、数据噪音、多样性弱等问题,OneKE采取了基于Schema的轮询指令构造技术,专门针对提升大模型在结构化信息抽取的泛化能力进行了优化,相关内容可查阅论文“[IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus](https://arxiv.org/abs/2402.14710) [Github](https://github.com/zjunlp/IEPile)”。 + + +OneKE在零样本泛化性上与其他大模型的对比结果: +* `NER-en`: CrossNER_AI、CrossNER_literature、CrossNER_music、CrossNER_politics、CrossNER_science +* `NER-zh`: WEIBONER、boson +* `RE-zh`: COAE2016、IPRE、SKE2020 +* `RE-en`: FewRel、Wiki-ZSL +* `EE-en`: CrudeOilNews、WikiEvents、RAMS +* `EE-zh`: FewFC、CCF Law + + + + + +W@k!TNg9zUKUT*?rvf`m6u(*Xz{~65HGFF+!KO>q)xLZ#T1iS8uoTvTT3umUUhJ
z+^^ey9!P(#*n?uRLFQrL;L%}*o=>Vj|9!dWy88S2dxGu#?KV4E44$}vJ(8sMpzWjQ
z6fpexM0N;{_;)C>($7~wNu<@Ai@>697#yA4FsgxTI9m!7J~;w#Z%2Wel=6wY8#X!c
z=^HC;Bobc*7)@469RAE>6cC+`iBjf*{6R_yX6Z2;cdnW585#EFU8O`EDz}etf)<7u
zQbR%l2ZND%`t#XjXzY78Y*2Vk0>wPiIOC2Cu~9<;9;})a+affIt{WW(R!o{}j+W?z
ziOPD&cM#Nz%`3_O1B)|V7UtqQ>GRYC%q4_~AI=O$5uw6f!%YOk5fB9<_leTbLmEcP
zoJ*a*7@e*sPejmyD`}pJPPa`)-%*A@6I5wW!7wocTuiN#Qih+KNc`%$ABYh{V~^!3
z;_CDA#I}ZkCz^x-2o!{q`G*~W
ztM!TRjI9VAepV5#q5zyeSdjU1& lZh;anhG@U-OtF}kw{bt917mRJe$kOu|_arzY@0N#}rf7C}a2%H{a>xblAQ3f}
zMu~=}&e`%>?D3#I3s1+cmW)L )GG<|Rj
z#l6oj(^c76&(sew!Rm7cUyYE5nH9Xqq6@Qr(ZwIh+dSp7e4TZT~hq%^e|8$1``;
z$fz2i^UwJ*M8+lHrCZvyorDiT%Mj*M?Zr oHj%?H*-}UfsU+
zRlwqWB{=rmv~jnMWMGo*1-mbzY08o#R3KP@l~BZMnIT3Y6s(sqlPkhK^12EY_`*vcTb{e|RGy-tx
z3VLD*n56N7@v_lz?)Jn+jyj#|3gs^>H}A;o0Y<8H(KM9*-)!XR*Q@!Hm(0I|1MbK@
zu#GjycaEta#x7tR8K$C>`e(1n@WsEE
c@vmk6Kioz
zicm
PT>8_N7-`BpbQuKWzBYwsg5YL|Pp+Zh$&@#7lM*2bd-RTWUuv^C1!*Qi?}
zDXy|b4tU2=UIJ=yX|9!AWtx!^D*^9*mYhANvybf_%T-SV_mh+Ad*d>$w0aBzYSN-M
zL&ls!Tz>RRq>BJAlwt}(sUI4#0>P^gyk9ugVgR7yfI;@N=4sJ<^jy5BlUbFQPs{F`
zIsqQC!x1JW9c@j%sE6qyv9J=KDr3(W-~^j8duCtp1kc^GTzHv2mGP;4nf|bBC5CF$
zm}ESwEOl2mgSgR)@p_zYm0b^g$vQ!BJ;-DP2*d6i3(I=p(!ATK=ZJzOx04OCy>u~4
z^YxS6ja_mc7Dg0N5*6snCKCoV=ltM|ObWej9jYhfyc>BtKPBY`$Q9i>MQ5@x8RrQ$
z;gw*<*K&{v@on;UP*D^YHrhXs@RJSnx%H6^pxHM7@8*0spU9KzuT4Gt+mSIa0}qBV
z)f@^K0bNjCd;|frfRT0E{QEpcLD$Q
$?|9|~SurL%bLNMR`@Any