上一篇文章我们提到过,实现科技查新自动化的基石:能够利用网络技术抓取到相应文献数据库的数据
而目前几乎所有的查新机构,都只是利用免费,收费的文献数据库,在人家系统里,利用人家提供的UI界面,前端界面,输入相应的关键词进行作业,各查新机构的查新员,必须先在公司内部的系统中,或者客户提交的委托单,进行初步分析,比如利用客户填写的查新点,提炼相应关键词,然后在各免费,收费文献收据库系统的前端界面,根据给出的各种搜索条件,输入关键词进行检索,然后根据检索出的数据,对客户研究的新颖性做出一个判断。
然后在制作查新报告的时候,根据文献数据库的结果,复制粘贴到公司内部系统,或者是粘贴到内部的固定格式的word文档中相应位置,根据实际情况,录入引用情况,和其他文献重复地方等,给客户报告给出一个结论,大部分正向结论,以“未见报道”、“未见文献报道”、“具备新颖性”为主要描述,对于部分和其他文献有重复,给出 “未见相同报道”结论,如果查到已经存在于其他文献,则给出 “已见报道”、“不具备新颖性”的结论。
这个过程较为复杂,新手,做一个报告,要耗时3-4个小时,甚至更多,熟手也差不读要2个小时,对于国内外查新报告,需要的更多,如果能够在查新机构自己的系统中,根据查新员提炼的关键词,系统自动去抓取各文献数据库的搜索结果,列入内部系统中,查新员可以进行顺序的调整,还可以额外增加自己从其他途径获取的数据,并自动把排序的数字进行整理,完成后,自动填入模板word相应位置,并且可以导出,那查新员的工作效率就大大提高。
而实现这一步,也是实现科技查新自动化的最重要的一环,这一步可以实现,后面实现完全自动化出报告则指日可待,就是需要我们不停的训练的系统,给系统足够的数据,让系统学习自动分析客户研究是属于哪一类学科,比如医学,机械,化学?然后经过足量的数据处理后,系统可以聪明的从客户的文章和查新点中,自动提炼出需要搜索的关键词。
这一步,以后再讲,今天我们讲一讲如何实现查新机构自己系统去各大文献平台抓取数据。
首先,各大文献数据库,目前还是比较友好,查询的时候,没有输入验证码的验证功能,还是可以实现的,我们登录系统后,利用chrome浏览器,找出文献数据库系统留在本地浏览器的token数据,保存下来,相信web程序员都可以做到。
其次,分析各文献数据库系统,提交查询的时候,提交的形式和字段,比如是否通过get、post传输参数,是否采用json格式,字段有哪些?
关键,本地写程序,把登录后获得的身份认证token和对应文献数据库需要的字段参数进行打包,再根据实际情况发送到对方的接口,比如有的文献数据库,只需要带上token和关键词字段就能实现查询,其他参数不是必选参数,那我们的json数据就可以使{"token":token,"keyword":"科技查新关键词"}
最后,根据不同关键词,文献数据库返回的结果(大概率json格式),存入对应客户的内部任务id中。
查新员根据抓取的数据,进行整理,判断,调整顺序,确认后,给出结论,插入到word模板中,再检查一次就可以盖章了。
如果上面的步骤可以走通,则可以大大节约查新员的时间,首先节约在另一个系统查询,切换的时间,其次查询数据也存储在了内部系统中,后期复盘也较为方便。
大概估计,如果上面的步骤走通了,则每个报告可以节约查新员1/3到1/2的工作时间,大大提高效率。
要想实现全自动的出报告,技术上,肯定有很多难点,比如系统如何把客户归类,客户提交的资料是医学,机械,化学?如何判断客户资料中的核心关键词?如果客户多了,一个系统频繁抓取文献数据库,是否会被封?
上面提到的难点,我们下次再讲,今天要休息。