主要是想做命名实体识别的标注;具体来说,有两个excel文件,称之为A(n行1列),B(n行1列)。举例来说,A中每一行是一句描述性质的话,B中每一行都是一个实体名请问该如何高效地实现类似以下的功能:for index,row in A.iterrows():
要判断row['描述']这一句话是否包含了B中的一个或者多个实体,并在A中进行标注
求指点思路。
3 回答
![?](http://img1.sycdn.imooc.com/54dc06a60001ef0401000100-100-100.jpg)
qq_花开花谢_0
TA贡献1835条经验 获得超7个赞
感觉这个类似token解析。
可以把B的每一行作为一个正则表达式,用或合并为1个正则。
对于A的每一行对上面的正则进行匹配,通过re.finditer获取当前行所有匹配的token
添加回答
举报
0/150
提交
取消