大道至简,知易行难
广阔天地,大有作为

2018年01月的文章

NLP

HanLP词性标注集

mlkui阅读(4986)评论(0)

HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料。所以,HanLP词性标注集兼容《ICTPOS 3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。 a 形容词 ad 副形词 ag 形容词性语...

BitTorrent

Apache Tika并不能直接用于语种识别

mlkui阅读(5204)评论(0)

在百度上搜索“语种识别”关键词时,有一个靠前的链接中提到使用Apache Tika进行语种识别: 其中提到: 但实际上,Tika做不了语言检测,Tika也是通过调用GitHub上的开源代码实现的。此前,Tika中是通过类org.apache...