中文检测算法优化 AI ...

Why Nostr? What is Njump?

npub1cc…smr09

2023-05-05 12:45:56

in reply to nevent1q…skcu

中文检测算法优化
AI
为了实现这个需求，我们可以在contains_chinese()函数中添加一个条件来检查字符串是否包含日文片假名。这里是一个修改后的版本：

import unicodedata

def contains_chinese(s):
has_chinese = False
for ch in s:
if u’\u4e00’ <= ch <= u’\u9fff’ and ‘CJK UNIFIED IDEOGRAPH’ in unicodedata.name(ch):
has_chinese = True
if u’\u30A0’ <= ch <= u’\u30FF’ or u’\uFF65’ <= ch <= u’\uFF9F’: # 检查日文片假名
return False
return has_chinese

#测试算法
text = “鉄道ファン/鉄道路線擬人化一次創作 #HighSpeedMetropoliStars / #riramemo #riramemotrip / 談論風発”
print(contains_chinese(text)) # 输出 False

这个修改后的函数首先检查字符串中是否有中文字符，并用变量has_chinese来记录。接着，它会检查字符串中是否有日文片假名。如果发现日文片假名，函数将立即返回False。最后，如果没有日文片假名且存在中文字符，则返回True。

Author Public Key

npub1ccjq3jwtlhwv358r0g6xglxhc5zg9f9sex63xxl62ut6fl5efu4sysmr09

Seen on

Show more details

Published at

2023-05-05 12:45:56

Kind type

1 Short Text Note

Event JSON

{ "id": "062f5fc6308256cc280dda4709819dd3cc3df749debcd74544628e1827205a8f", "pubkey": "c62408c9cbfddcc8d0e37a34647cd7c50482a4b0c9b5131bfa5717a4fe994f2b", "created_at": 1683290756, "kind": 1, "tags": [ [ "e", "b7945f6c6fc7292020c1c11eaaa6acb11fc8d9137becccfe1fd81722ddce5ac0" ], [ "e", "772ee436cf13a0f43da525d80a9004d43b1ae04048b88e6bcee7f2098b5606b3" ], [ "p", "98dfabd4629af235864af88289675b32cb7cae56a2533f1e1c2168aa66009bc6" ], [ "p", "db11b32009d914dd76bd904b8a636627d1d9043f2a4f9ecaf6aaf85d05c5f7af" ], [ "p", "d34110060782337c8864ff76321a821f2dbbcfb0bb33864b1cc48712abd84a80" ], [ "t", "测试算法" ], [ "t", "highspeedmetropolistars" ], [ "t", "riramemo" ], [ "t", "riramemotrip" ] ], "content": "中文检测算法优化\nAI\n为了实现这个需求，我们可以在contains_chinese()函数中添加一个条件来检查字符串是否包含日文片假名。这里是一个修改后的版本：\n\nimport unicodedata\n\ndef contains_chinese(s):\nhas_chinese = False\nfor ch in s:\nif u’\\u4e00’ \u003c= ch \u003c= u’\\u9fff’ and ‘CJK UNIFIED IDEOGRAPH’ in unicodedata.name(ch):\nhas_chinese = True\nif u’\\u30A0’ \u003c= ch \u003c= u’\\u30FF’ or u’\\uFF65’ \u003c= ch \u003c= u’\\uFF9F’: # 检查日文片假名\nreturn False\nreturn has_chinese\n\n#测试算法\ntext = “鉄道ファン/鉄道路線擬人化一次創作 #HighSpeedMetropoliStars / #riramemo #riramemotrip / 談論風発”\nprint(contains_chinese(text)) # 输出 False\n\n这个修改后的函数首先检查字符串中是否有中文字符，并用变量has_chinese来记录。接着，它会检查字符串中是否有日文片假名。如果发现日文片假名，函数将立即返回False。最后，如果没有日文片假名且存在中文字符，则返回True。 ", "sig": "3809ac069a8a7253371358bd77038d8f04bdfe2c28a42088221014fe1db6ebbfc7e0fc0e3921fc0f7988bed0202c4029bc9104c7637d8bb95ee2828f739b5332" }