本项目旨在开发一个能够从生物科技相关专利文档等非结构化文本中提取基因序列信息的知识图谱系统。担任团队负责人期间,主要负责项目规划和研究,管理团队进度并审查成员的设计方案。

团队开发了一条数据提取流水线,从生物科技相关专利文档中提取基因名称、基因序列和生物体名称。我们将此 ETL 管道与 BLAST+ 数据库集成,对提取的基因信息进行分类群分类。这一流程有助于我们整合知识产权收购与其他相关信息,为业务带来进一步的增值。
PoC 项目取得了良好的成果,证明了利用知识图谱系统从非结构化数据源中提取高价值信息的潜力,也为这一创新解决方案的落地提供了有力支撑。
