上面几篇文章都是关于科技查新自动化方面,和技术实现相关的,本人也不是程序员,不是很懂,但是咨询了身边几个程序员朋友,有了一个大概的了解,整体脉络是清除的,但是具体的技术实现,就不是我的专长了,如果按照上几篇文章的方法来架设web服务器,数据库,代理服务器,就基本解决了文献数据库封锁的事情,好比解决了盖房子打地基的问题。
下面我们来聊一下,想要实现自动化,那我们就得让程序能够自动对客户委托单进行分类,比如前期,我们可以采用查新员+系统手动的方式进行,每次查新员或者派题员进行分类的时候,比如分为医学,机械等,查新员从委托单简介中,复制一些相关关键词出来,可以是行业名称,技术名称等,等系统积累到大量的分类+关键词的匹配信息后,系统再切换成帮自动,比如上传了新的委托单,先是自动从数据库的分类+关键词表中循环一次,看看当前委托单的文字描述中,都有哪些关键词存在,每个关键词出现的次数也要记录,这样我们就可以得到一个委托单里出现的所有关键词和次数,然后就可以获取哪个分类的关键词出现的最多,就基本可以锁定这个委托单属于哪个分类。
这个时候系统只是给出建议,查新员是可以手工更改的,同时我们需要到文献数据库查询的关键词,系统也自动给出,并且出现次数最多的排前面,查新员可以手工勾选关键词成为本次委托单的查询关键词,提交后,系统就自动把相应关键词的分配到任务列表,系统会根据委托单分类,去对应的文献数据库抓取数据, 同时根据查询频率决定派哪台web服务器或者代理服务器作为爬虫去文献数据库进行数据抓取,抓取回来的数据存储起来,抓取完成后,跳转到一个新页面,当前页面会显示抓取的数据,查新员可以进行顺序的调整,也可以新增其他渠道的数据,调整完毕,点击确定,则相应的结果自动插入到事先做好的查新报告word模板。
这一步就是积累数据和训练系统的过程,前期系统+手工这种半自动的方式,大概要持续1-2年时间,才能够积累到足够的数据,为后面的全自动打下坚实的基础。
下一步我们再写,如果有了足量的匹配数据后,如果实现完全自动化。