任职要求
1.硕士及以上学历,计算机、自动化、软件工程、数学等相关专业。 2.五年以上产品/项目研发经验,对多源异构文档有深刻的理解,对文档解析策略具有丰富的工程经验。熟练掌握常见数据结构和算法,能够解决复杂的字符串处理、模式匹配和优化问题。 3. 精通图像预处理技术,如二值化、去噪、倾斜校正、版面分析。熟练使用框架(如 Detectron2, YOLO)进行表格、图表、印章、签名等文档元素的检测。 OCR(光学字符识别):精通主流OCR引擎(如 Tesseract, PaddleOCR, Google Vision AI, AWS Textract)的原理、应用和调优。 4. 精通文本处理:熟悉正则表达式、分词、词性标注、命名实体识别。能够使用规则、机器学习或深度学习模型从文本中抽取关键信息(如日期、金额、公司名)。 5.熟悉如何使用 Prompt Engineering和 RAG(检索增强生成)技术,利用大语言模型(如 GPT、Llama 系列)进行更智能的文档理解和内容总结。 6.熟悉处理不同格式文档的处理库,例如PDF、Office等,并对工程和工具调优方法有持续的跟踪了解。有处理复杂版式文档(如财务报表、法律合同、技术图纸、医疗报告)的经验,能解决表格结构识别、跨页内容合并等难题。 7.具备良好的逻辑思维、结构化分析与抽象建模能力,拥有实际的智能文档处理项目经验,能够独立完成从数据准备、模型训练到系统部署的全流程。 8.英文良好,能阅读并理解相关方向的英文学术论文,有顶会和期刊论文、竞赛获奖者优先。